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HISTORISCHES ZUR 
WAHRSCHEINLICHKEITSDEFINITION 


Die folgenden Betrachtungen beziehen sich nur auf den Begrifj der Ereignis- 
Wahrscheinlichkeit und nicht auf Hypothesen-Wahrscheinlichkeit, und auch 
dies nur, soweit eine numerische Erfassung derselben müglich und damit ein 
Aufbau der Wahrscheinlichkeilsrechnung gewährleistet ist. Die Wahrschein- 
lichkeïitsrechnung und die mit ihr eng verbundene mathematische Statistik 
spielen bekanntlich heute in verschiedenen wissenschaftlichen Disziplinen, in 
Technik und Wirtschajt eine wichlige Rolle, deren Bedeutung noch in stetem 
Zunehmen begrifjen ist. Es dürfle auch kaum Zuweifel herrschen über den 
eminenten Nutzen, den die moderne Forschung den auf der Wakhrscheinlichkeïts- 
theorie basierenden Arbeilsmethoden zu verdanken hat. 

In Anbetracht dieser Tatsache mag es dem Aussenstehenden verwunderlich 
erscheinen, dass die Theoretiker sich bis heute in der Definition des Begrifjes 
der Wakhrscheinlichkeit nicht einigen konnten. Soweit es sich um den täglichen 
Sprachgebrauch handelt, ist der Begriff der Wahrscheinlichkeit im allgemeinen 
wohl mit einer genügend klaren Vorstellung verbunden. Der für die exakt- 
wissenschaftliche Verwendung erforderliche Wahrscheinlichkeits-Begriff jedoch 
erfordert eine zweifelsfreie und ausreichende Umschreibung. Dabeti bleibt 
allerdings die Müglichkeit ofjen, dass es eine wesentliche Eïigenart des Wahr- 
scheinlichkeitsbegriffes ist, nicht in einer für alle wissenschaftlichen Belange 
ausreichenden Definition prägnant erfasst werden zu künnen. Poincaré ! leitel 
das erste Kapitel seiner Wahrscheinlichkeitsrechnung mit der Feststellung ein, 
dass es nicht môglich ist, eine befriedigende Definition der Wahrscheinlichkeït 
zu geben, und er bemerkt elwas später : Die vollständige Definition der Wahr- 
scheinlichkeit ist eine Art von « pétition de principe ». In eingehender Würdigung 
der verschiedenen Standpunkte kommt neuerdings auch Ville! zum Schluss, 
dass in den zahlreichen Kontroversen, welche das Problem der Wakhrscheinlich- 
keitsdefinition ausgelôst hat, jedenfalls eine Uebereinstimmung niemals zu 
erhoffen set. 

Es hat sich als gebräuchlich eingebürgert, von der Wahrscheinlichkeït eines 
Ereignisses zu sprechen. Nach der von Keynes® vertretenen Ansicht betrifjt 
jedoch die Wakhrscheinlichkeit nicht Ereignisse, sondern Urteile und Sätze, 
welche sich auf diese Ereignisse beziehen. Mag dies logischerweise auch zu- 
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trefjen, so ist die übliche Ausdrucksweise doch praktisch und ein Nachteïl nicht 
zu ersehen. Als weitere Eïigenart ist bemerkenswert, dass die verschiedenen 
Definitionen der Wahrscheinlichkeit eigentlich nicht diesen Begrifj umschreiben, 
sondern vielmehr angeben, wie die Wahrscheinlichkeit gemessen werden kann. 
Jac. Bernoulli 4 bezeichnete die Wahrscheinlichkeit als Mass der Stärke unserer 
Erwartung eines zukünftigen Ereignisses. Nach v. Kries ® ist es eine charak- 
teristische Eigentümlichkeit der Wahrscheinlichkeitsaussage, dass sie die mehr 
oder minder grosse Berechtigung einer Erwartung angibt. In der neueren Litera- 
tur vollends tritt es ganz deutlich hervor, dass mit der Wahrscheinlichkeïts- 
definition eine Massbestimmung festgelegt wird, dass sie also — wie insbe- 
sondere Czuber $ schon früher eingehend darlegte — keine Umschreibung des 
hinter dem Worte Wahrscheinlichkeit steckenden Begriffs enthält, sondern nur 
eine Vorschrift liefert, wie das darin verborgene Quantitive und der mathema- 
tischen Behandlung Zugängliche erfasst werden kann. Es ist übrigens nicht 
aussergewôhnlich, wenn an Stelle der Definition eines Begrifjes die Art seiner 
Messung geräckt wird, denken wir nur z. B. an die Definition der Geschwindig- 
keit als Quotient von Weg durch Zeit. 

Die einfache und anschauliche klassische Wakhrscheinlichkeitsdefi nition, 
welche auch in der Enzyklopädie der mathematischen Wissenschaften nieder- 
 gelegt ist, lautet bekanntlich: Unter der mathematischen Wahrscheinlichkeit 
eines Ereignisses wird der Bruckh verstanden, dessen Zähler die Anzahl der dem 
EÉreignis günstigen, und dessen Nenner die Anzahl aller gleichmôglichen 
Fälle ist. Der Ursprung dieser Definition geht auf die Ars Conjectandi von 
Jac. Bernoulli 4 zurück, wobei allerdings dort der bezügliche Satz — Gini? 
unterstreicht dies in seinem Hinweis mit Recht — nicht als eine Definition, 
sondern als Mass der als Begrifj schon als gegeben vorausgesetzten Wahrschein- 
lichkeit anzusehen ist. Die ersten Probleme der Wahrscheinlichkeitsrechnung 
betrafen Glückspiele. Aber schon Jac. Bernouilli war bestrebt, aufzuzeigen, 
dass die Anwendbarkeit der Wahrscheinlichkeitsrechnung sich nicht auf 
Glückspiele beschränke. Trotz des sich in der Folge stetig vergrôssernden 
Anwendungsbereiches der Wahrscheinlichkeitsrechnung begnügte man sich lange 
Zeit mit der erwähnten klassischen Definition, obwohl diese logische Schwierig- 
keiten zu bereiten schien, wenn man sich von den leicht überblickbaren Sach- 
verhalten der Glückspiele entfernte. In den vielgelesenen Lehrgängen der 


Wakhrscheinlichkeitsrechnung von Poincaré1, Borel8, P. Levi® steht die 


klassische Definition als Ausgangspunkt. Auch Czuber ? stützt sich in seinem 
grossangelegten Lehrbuch der Wakhrscheinlichkeitsrechnung, das lange Jahre 
zumindest für das deutsche Sprachgebiet führend war, auf die klassische Defi- 
nition, wobei er ihr die folgenden Prämissen voranstellt : « 1. Von der Kausa- 
lität des Geschehens wird abgesehen, somit die Hypothese eines absoluten oder 
reinen Zufalls gemacht. 2. Dadurch ist auch die vôllige gegenseitige Unab- 
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hängigkeit der Vorgänge supponiert. 3. Bei der in Betracht gezogenen Materie 
wird eine Festsetzung über die gleichmôglichen Fälle getroffen. » 

Bei der klassischen Definition der Wahrscheinlichkeit ist das Hauptgewicht 
auf die Deutung der Gleichmôüglichkeit zu legen. Die Definition selbst gibl keine 
Auskun/t darüber, welche Fälle als gleichmôglich zu betrachten sind. Soweit 
es sich um Glückspiele und diesen ähnliche Versuche handelt, liegt die Ver- 
wendung eines Symetrieprinzips nahe. An sich aber ist es bloss eine Sache der 
Festsetzung, welche Fälle als gleichmôüglich zu betrachten sind. Bei der philoso- 
phischen Kontroverse, die sich in der Folge um die Festselzung der Gleich- 
môglichkeit entspann, haben sich zwei entgegengesetzte Standpunkte abgezeichnet, 
das sog. Prinzip des mangelnden Grundes einerseits und das Prinzip des 
zwingenden Grundes (oder elwas abgeschwächt des ausreichenden Grundes) 
anderseits. Hierüber ist insbesondere von Czuber ® erschüpfend referiert 
worden. Neuerdings hat Finsler  darauf aufmerksam gemacht, dass die Ein- 
reihung der gleichmôglichen Fälle in die Voraussetzungen nicht mehr wiüll- 
kürlich sein darf, sobald es sich um die Kombination von Ereignissen handelt, 
oder dass mit à. W. der Multiplikationssatz der Wakhrscheinlichkeitsrechnung 
sich aus der klassischen Definition der Wakhrscheinlichkeit und ihren Prà- 
missen allein nicht herleiten lässt. 

Der Haupteinwand aber, der immer und immer wieder bis auf den heutigen 
Tag gegen die klassische Wahrscheinlichkeitsdefinition vorgebracht wird, geht 
dahin, dass sie einen fehlerhaften Zirkel enthalte. Denn sie setze gleichmôügliche 
Fälle voraus, was gleichbedeutend sei mit gleichwahrscheinlichen Fällen, also 
handle es sich um eine müssige Tautologie. Dieser Einwand ist jedock absolut 
ungerechtfertigt. Denn wie erwähnt, gibt die Definition eigentlich eine Mass- 
bestimmung der Wakhrscheinlichkeit. Das Wakhrscheinlichkeïtsverhälinis ts 
zu betrachten als Sonderfall des Verhältnisses zwischen zwei Grôüssen, und wie 
u. a. Finsler! aufweist, kann eine Wakhrscheinlichkeit nicht in absolutem 
Sinne festgelegt werden, auch nicht durch beliebig viele Beobachtungen, ohne 
dass zum vorhinein eine Masseinheit der Môglichkeit festgelegt, d. h. eine 
Annahme über andere Wahrscheinlichkeiten oder über die Gleichheiten von 
solchen gemacht wird. Da ist in keiner Weise ein Fehler, denn auch in der 
Geometrie beispielsweise ist die Länge einer Strecke erst messbar, wenn 
wenigstens eine Länge vorgegeben und über die Gleichsetzung von Längen eine 
Abmachung getroffen ist. In diesem Punkte hat — mit den Worten Ginis? — 
Jac. Bernoulli klarer gesehen als die Mehrheit der modernen Wahrscheinlich- 
keitstheoretiker. 

Die klassische Wahrscheinlichkeitsdefinition ist auch bekannt unter der 
Bezeichnung Wakhrscheinlichkeit a priori. Nun ist es aber in der Praxis ver- 
hältnismässig selten der Fall, dass die Entstehungsbedingungen der Ereignisse 
so einfach gelagert sind, dass eine Wakhrscheinlichkeitsbestimmung & priori 
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môglich ist. Es liegt aber der Gedanke nahe, Wakhrscheinlichkeïten deren 
a priorische Feststellung nicht müglich ist, durch Beobachtung der relativen 
Häufigkeiten der betrefjenden Ereignisse a posteriori zu bestimmen. Czuber? 
bemerkt denn auch in seinem genannten Lehrbuckhe, dass die klassische Fassung 
der Wakhrscheinlichkeitsdefinition nur dann Geltung haben kann, wenn das 
positive Wissen über eine Urteilsmaterie die Auflôsung der Môglichkeiten in 
eine zählbare Menge gleichmüglicher Fälle gestattet, dass aber die Anwendungen 
der Wahrscheinlichkeitstheorie auf Naturerscheinungen und Vorgänge des 
praktischen Lebens fast ausschliesslich Fälle darbietet, bei welchen dieser modus 
procedendi nicht durchführbar ist. Neben der Ermittlung der Wahrschein- 
lichkeit auf Grund einer Analyse der Urteilsmaterie tritt deshalb — immer 
nach Czuber — als selbständige Methode die Wahrscheinlichkeitsbestimmung 
auf Grund von Erfahrungsdaten oder Versuchen über dieselbe. Es handelt 
sich hier um die Wahrscheinlickheit a posteriori, auch empirische oder statis- 
tische Wakhrscheinlichkeit genannt, und was die Tragweite der beiden Methoden 
anbelangt, so ist die empirische Wakhrscheinlichkeïtsbestimmung der aprio- 
rischen weit überlegen. 

Die Unterscheidung in Wahrscheinlichkeit a priori und’ a posteriori geht 
auf Jac. Bernoulli zurück. Bernoulli selbst war offenbar im Glauben, mit dem 
nach ihm benannten Theorem, welches auf Grund einer a priori bekannten 
Wahrscheinlichkeit auf die beobachteten Häufigkeiten zu schliessen erlaubt, 
auch das Problem erledigt zu haben, aus Häufigkeitsbeobachtungen eine unbe- 
kannte Wahrscheinlichkeit mit einer beliebig grossen Annäherung empirisch 
zu bestimmen. Die Grundlage für die Lehre von der aus der Erfahrung abge- 
leiteten Wahrscheinlichkeit bildete dann bekanntlich der Satz von Bayes. Es 
ist wichtig darauf hinzuweisen, dass bei der Herleitung der Lehrsätze über die 
aposteriorischen Wahrscheinlichkeiten ausschliesslich mit den aus der klassischen 
Wakhrscheinlichkeitsdefinition zu deduzierenden Begriffen operiert werden 
kann, so dass ein geschlossenes logisches System vorliegt. So wie das Ber- 
noullische Theorem eine Aussage erlaubt über das Ergebnis einer anzustellenden 
Versuchsreihe mit bekannter a priori Wahrscheinlichkeit, wobei sich die Ergeb- 
nisse um gewisse Differenzen von der Voraussage entfernen werden, so gibt 
die Inversion des Theorems die Wahrscheinlichkeiten der Fehler bestimmter 
Grôsse bei empirischer Bestimmung unbekannter Wahrscheinlichkeiten. Die 
wahren Werte der empirischen Wakhrscheinlichkeiten sind dagegen meist 
unzugänglich. Nach der Meinung von Castelnuovo 2 muss, im Sinne einer 
Verhäütung von Irrtümern und unnôtigen Kontroversen, zwischen Wakhrschein- 
lichkeit a priori und a posteriori mit betonter Schärfe unterschieden werden, 
und Gini nennt den aus der Missachtung dieser Unterscheidung resultierenden 
unerlaubten Uebergang von der direkten zur inversen Wahrscheinlichkeit die 
«Erbsünde der Wakhrscheinlichkeitsrechnung ». In diesem Zusammenhange 
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ist die zur Zeit zwischen Gini und Anderson # waltende Diskussion über die 
Frage, ob für die Inversion des Bernoullischen Theorems die Anwendung des 
Salzes von Bayes notwendig ist, von grossem Interesse, da insbesondere auch 
die Begründung der aus der englischen Schule hervorgegangenen « Tests of 
significance » einer Krilik unterzogen wird. 

Neben der Basierung der Wahrscheinlichkeitsrechnung auf der klassischen 
Definition ist mit der Zeil eine Grundlegung in Erscheinung getreten, welche 
in der Definition der Wahrscheinlichkeit von der relativen Häufigkeit ausgeht. 

£s liegt dabeï offenbar die Absicht vor, die objektive Bedeutung der Wahrschein- 
lichkeil in den Vordergrund zu rücken, und die Entwicklung der Idee kann von 
Cournot # und Ellis 5 über Mills 6, v. Kries5, Venn!?, Bruns 8, Marbe #, 
Fisher ® bis zu v. Mises?! und weiler deutlich verfolgt werden. Nach dem 
Standpunkt der klassischen Definition ist es — in der Formulierung Czubers 
lediglich als eine Érfahrungstatsache festgestellt, dass in allen Fällen, wo eine 
Prüfung der Wirklichkeit erjolgt ist, und wo die Voraussetzungen für eine 
begründete Aufstellung der Wahrscheinlichkeit vorhanden waren, eine so 
weitgehende Annäherung der relativen Häufigkeit an die Wahrscheinlichkeit 
festgestelll werden konnte, dass man sagen darf, der theoretische Satz « Häufig- 
keits-Limes — Wakhrscheinlichkeit » finde in der Wirklichkeit in solchem 
Grade Bestätigung, als dies von einer Anwendung der Ergebnisse reinen 
Denkens auf die verwickelten Vorgänge des Geschehens erwartet werden kann. 
Die Limes-Theorie, wenn wir die andere Aufjassung kurz so benennen wollen, 
nimmt gewissermassen den entgegengesetzten Standpunkt ein und geht von der 
Gleichsetzung des Häufigkeitsgrenzwertes mit der Wahrscheinlichkeit als einer 
Vorausselzung aus. Ganz in dieser Richtung liegt der von Bruns ! formulierte 
und einen Grenzwert definierende « Satz von der gleichmässigen Erschüpfung 
der müglichen Fälle», der seiner Wahrscheinlichkeïtsrechnung als Postulat 
vorangestellt ist. Der Hauplvertreter der Limes-Theorie jedoch ist v. Mises ?, 
der thr einen axiomatischen Aufbau gegeben hat unter Verwendung des Kollektiv- 
begriffes. v. Mises fasst das Charakteristische seiner Theorie in vier Punkten 
zusammen: Der Begrifj des Kollektivs wird dem der Wakhrscheinlichkeït 
vorausgeschickt ; diese wird als Grenzwert der relativen Häufigkeiten definiert : 
ein Regellosigkeitsaxiom wird aufgestellt ; die Aufgabe der Wahrscheinlichkeits- 
rechnung wird präzisiert. 

Wakhrscheinlichkeit ist also für v. Mises ein anderes Wort für « Grenzwert 
der relativen Häufigkeit in einem Kollektiv », wobei ein Kollektiv eine unbe- 
grenzle Ereignisfolge ist, welche Zufallischarakter hat (Regellosigkeïtsaxiom 
oder Prinzip vom ausgeschlossenen Spielsystem) und einem Limes zustrebl 
(Grenzwertaxiom). Diese Aufjassung hat-einerseits eine grosse Anhängerschaft 
gefunden, wir verweisen nur beispielsweise auf das Lehrbuch von Coolidge * 
und jenes von Baptist#, sowie auf die Stellungnahme von Steftensen et 
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Anderseits sind sehr bald ernst zu nehmende Einwendungen gegen die 
v. Mises’sche Theorie vorgebracht worden. Gegen die Verbindung des Grenzwert- 
und des Regellosigkeits-Axioms ist, wie Popper ® ausführt, eingewendet 
worden, dass es unzulässig ist, den mathematischen Grenzwertbegriff auf eine 
Folge anzuwenden, die per Definitionen durch kein Bildungsgesetz darstellbar 
ist. Von Bedeutung ist in diesem Zusammenhange die umfassende Unter- 
suchung von Ville?. Auch Vietoris #, um eine der neuesten Arbeiten zu erwäh- 
nen, kommt zum Schluss, dass jede Wahrscheinlichkeitslehre, in der die Limes- 
Aussage vorkommt, einen Widerspruch enthält. Diese Feststellungen aber 
sind nicht neu, sie finden sich expressis verbis schon bei Czuberf. 

Von manchen Aultoren (Copeland?, Kamke*#, Dôrge*”, Tornier *, 
Reichenbach #1, Wald #) wurde in der Folge eine Lüsung angestrebt, in dem 
Sinne, dass nur der Grenzwert axiomatisch gefordert, das Regellosigkeitsaxiom 
dagegen fallengelassen oder durch eine schwächere Forderung ersetzt wird. 
Diese Stellungnahmen wurden bedingt durch die Erkenntnis, dass es nicht 
môglich ist, einen Existenzbeweis für den durch das Regellosigkeitsaxziom 
definierten Begrifj « Kollektiv » zu erbringen. Wenn nun aber, wie z. B. bei 
dem extremen Standpunkt Dôrges zur Kollektivbildung auch gesetzmässige 
Folgen zugelassen werden, und sich als Folgerung ergibt, dass einem Merkmal 
die Wahrscheinlichkeit Null zukommen kann, auch wenn es in der Merkmal- 
folge nicht nur endlich, sondern sogar unendlich oft auftritt, so hat man es 
ofjenbar mit einem neuen und umfassenderen Wahrscheinlichkeits-Begriff zu 
tun und nicht nur mit einem Erwartungsmass für zufällige Ereignisse. Recht 
interessant in diesen Zusammenhange ist die Feststellung Reïichenbach's 3, 
der das Regellosigkeitsaxiom durch die schwächere Forderung der « Nach- 
wirkungsfreiheit » ersetzt, dass vom Standpunkt der strengen Logik alle Limes- 
Aussagen der Wahrscheinlichkeïtstheorie als leer bezeichnet werden müssen, 
und seine Versuche die Limes-Deutung durch Begründung einer Wahrschein- 
lichkeïtslogik aufrecht zu hallen. Andere Autoren hinwieder halten das Grenz- 
wertaxiom für nicht minder bedenklich als das Regellosigkeitsaxiom. Popper # 
z. B. ist der Ansicht, dass die Modifikation des Regellosigkeitsaxioms eine 
mathematische Angelegenheit sei, während sich dem Grenzwertaxiom vor allem 
erkenntnistheoretische Gründe widersetzen, indem der postulierte Limes rein 
hypothetischer Natur und die ihn definierende unendliche Folge nicht verifi- 
zierbar ist. Er hat darum einen Neuaufbau der Wahrscheinlichkeïtstheorie 
in ähnlicher Weïse wie Reichenbach, fussend auf dem Begrifj der für endliche 
n-Tupel nachwirkungsfreien Folgen, aber unter Ausschaltung des. Limes, 
vorgeschlagen. Manche neuere Verfasser haben es vorgezogen, bei ihrer auf 
dem Häufigkeitsbegriff basierenden. Wahrscheinlichkeitsdefinition den sta- 
listischen Standpunkt besonders zu betonen. So ersetzt Anderson # das unend- 
liche Kollektiv durch das statistische Kollektiv, eine qut durchmischte endliche 
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Gesamtheit darstellend, und definiert die Wahrscheinlichkeit eines Merkmals 
im Bereiche eines stalistischen Kollektivs als seine Häufigkeit in einer andern 
Gesamtheil hôherer Ordnung, aus der die gegebene entstanden ist. Typisch ist 
sodann auch die Definition, die wir bei Fréchet# finden: Die Frequenzen 
eines zufälligen Ereignisses in umfangreichen Serien von Versuchen gleicher 
Art sind empirische Werle der gleichen physischen Konstante, welche dem 
betreffenden Ereignis und der Versuchsanordnung eigen ist; diese physische 
Konstante nennen wir die Wahrscheinlichkeit des Ereignisses. Oder mit 
andern Worten : die Wahrscheinlichkeit eines Ereignisses wird gemessen durch 
seine Frequenz in einer Serie von Versuchen. Die Präzision der Messung ist 
im allgemeinen um so grôsser, je umfangreicher die Versuchsserie ist. Es muss 
also nicht nolwendigerweise der begangene Fehler umso kleiner sein, je grôsser 
der Serienum/ang, und die Gleichsetzung der Wahrscheinlichkeit mit dem 
Limes der Frequenz ist, streng genommen, falsch. Eine ähnliche Konzeption 
finden wir bei Dubourdieu #. Sodann wäre noch darauf hinzuweisen, dass 
auch Castelnuovo % in seinem Lehrbuch wohl die klassische Wahrscheinlich- 
keitsdefinition an die Spilze stellt, unmittelbar folgend aber als empirisches 
Wahrscheinlichkeilsgesetz ausspricht, dass die Frequenz eines Ereignisses in 
einer Serie gleicharliger Versuche bei wachsender Versuchszahl gegen eine 
Limite tendiert, welche der Wahrscheinlichkeit des Ereignisses gleich ist. 
Von verschiedener Seite ist versucht worden, die gegensätzlichen Stand- 
punkte einander anzunähern. So sagt Weyl% in seiner Philosophie der 
Naturwissenschaft: «ÆS wird behauptet, dass jede unter den gleichen 
Bedingungen veranstaltete Versuchsfolge zu dem gleichen Häufigkeitswert führt. 
Damit die mathematischen Regeln der Wahrscheinlickheitsrechnung zutrefjen, 
müssen die Versuchsfolgen gewissen Forderungen genügen, deren exakte Fassung 
bisher kaum restlos gelungen ist und die so etwas wie « Ordnung im grossen, 
Unordnung im kleinen » verlangen. Aber verdeckt diese durch die erkenninis- 
theoretische Haltung des strengen Empirismus bedingte «objektive Begründung » 
der Statistik nicht lediglich die a priori-Wakhrscheinlichkeit hinter der dogma- 
tischen Fassung eines fingierten Häufigkeitslimes, der an die unsinnige Vor- 
stellung der unendlichen Versuchsfolge geknüpjt ist? Ist es nicht vernün/jtiger, 
die Wahrschéinlichkeit hinzunehmen als ein nicht weiter zu reduzierendes 
Element der Natur bzw. ihrer theoretischen Konstruktion ?» Es haben sich 
aber die Gegensätze in dieser Grundlagenfrage keineswegs verringert, wie sich 
dies in dem von Fréchet # präsidierten Kolloquium vom Jahre 1937 in Gen/ 
gezeigt hat, und wie es in den verschiedenen Arbeiten des vorliegenden Hejtes 
zutage tritt. Die gleiche Feststellung macht Fortet%® in seinem Résumé über 
diese Frage. Dass es sich um eine Angelegenheit handelt, welcher der Forscher 
und Theoretiker nicht gleichgültig gegenüberstehen kann, davon zeugt die stets 
wachsende Zaht der Publikationen zu diesem Gegenstand, sodass es kaum mehr 
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môglich ist, die einschlägige Literatur ganz zu überblicken. Aber eine wichtige 
Tatsache ist unbedingt festzuhalten : Durch alle Kontroversen über den grund- 
legenden Begrifj der Wahrscheinlichkeit ist der eigentliche Inhalt der Wakhr- 
scheinlichkeitsrechnung kaum berührt worden, und ebensowenig wurde ihre 
Nutzanwendung irgendwie in Frage gestellt. 

In letzter Zeit bekennen sich zahlreiche Autoren zu einer axiomatischen 
Begründung der Wahrscheinlichkeitsrechnung. Man kann dies nicht eigentlich 
als einen dritten Standpunkt bezeichnen, indem damit dem Wesen nach auf die 
klassische Definition zurückgegriffjen wird. Kolmogoroff #, dessen Buch als 
repräsentativ für diese neue Richtung gelten kann, nennt als Leitgedanken die 
natürliche Einordnung der Grundbegrifje der Wahrscheinlichkeitsrechnung 
in die Reihe der Begrifisbildungen der modernen Mathematik. Dieser Aufbau 
wird unter Bezugnahme auf die Mengentheorie durchgeführt, wobet sich zufolge 
Deutung der Wakhrscheinlichkeit ais Mengenfunktion ein Dualismus zwischen 
gewissen Begrifjen der Mengentheorie und der Wahrscheinlichkeïtstheorie 
ergibt. Die Idee eines axiomatischen Aufbaues der Wahrscheinlichkettstheorie 
reicht in ihren Wurzeln weïler zurück; wir verweisen beispielsweise auf den 
abstrakten Aufbau des Buches von Markoff # und auf die mengentheoretische 
Basierung des Buches von Urban %. An letzterschienenen Publikationen dieser 
Richtung sind jene von Finsler 4 und Cramèr ® zu nennen. In diesem Zusam- 
menhange sind die Arbeiten von Koopman # und Vietoris #% von besonderem 
Interesse, welche beim axiomatischen Aufbau den Begrifj «eher als» dem 
Begriff der Wakhrscheinlichkeit als einen einfacheren Grundbegriff voranstellen. 

Vorstehend wurde versucht, die bisherigen Stellungnahmen in der Frage 
der Wahrscheinlichkeitsdefinition nach drei Gesichtspunkten aufzuteilen, die 
man kurz charakterisieren kann als klassische, Häufigkeits-, und axiomatische 
Definition. Nicht alle Konzeptionen lassen sich zwanglos in diese Gruppierung 
einordnen. So insbesondere die streng subjektive Stellungnahme de Finetti's #, 
welcher bei der Wahrscheinlichkeitsdefinition vom Begriff des gerechten Spiels 
ausgeht. Zweifellos besteht hier eine Parallele zu dem schon in älterer Literatur 
behandelten Begrifj der gerechten Wette. 

Die Wahrscheinlichkeitsrechnung als mathematische Disziplin ist ein System 
abstrakter Sätze. Wenn diese Theorie in sich geschlossen und widerspruchs- 
frei ist, so ist der Fragenkomplex vom rein mathematischen Standpunkt aus 
gesehen als erledigt zu betrachten. Nicht so für den Vertreter der mathematischen 
Stalistik. Die Sälze der axiomatisch aufgebauten Wakhrscheinlichkeitsrechnung 
enthalten an sich keine Aussagen über das tatsächliche Geschehen. Die Frage 
der konkreten Interpretation ist daher für den Praktiker von eminenter Wichtig- 
keit. Soviel steht fest, dass es nicht müglich ist, in mathematischer Deduktion 
den Beweis zu erbringen, dass die Sätze der Wakhrscheinlichkeitsrechnung für 
die Wirklichkeit Geltung haben. Ein solcher Nachweis lässt sich nur auf die 
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Erfahrung slützen. In dieser Hinsicht spiell die durch Induktion gewonnene 
Verallgemeinerung beobachteler T'atbestände eine wichtige Rolle. Auch in 
manch andern Disziplinen ist ja die Erfahrung das einzige Mittel, die Aniwend- 
barkeit theoretischer Sätze auf das reale Geschehen zu erproben. Die Theorie 
ist aufzujassen als ein Modell und deren abstrakte Sätze haben ihr Gegenstück 
in den beobachteten Ereignissen. Die Verbindung zwischen Theorie und 
Wirklichkeil kann, wie z. B. bei Cramèr #, mit Hilfe der Häufigkeitsinterpre- 
lation der Wakhrscheinlichkeit hergestellt werden. Man kann auch den Weg 
versuchen, in empirischer Deduktion Axiome aufzustellen, und gewissermassen 
die Erfahrungstatsache des Prinzips der grossen Zahlen in die Axiomatik 
einzubauen. Von diesem Leitgedanken, nämlich die Wahrscheinlichkeits- 
rechnung als eine mathematische Naturwissenschaft aufzubauen, geht v. Mises 21 
aus. Auf die Einwände gegen diese Konzeplion haben wir bereits hingewiesen. 
Verbleiben wir beim abstrakt-axiomatischen Aufbau, so kann man mit Anderson 


die Frage stellen, ob für die Verbindung zwischen Theorie und Realität nicht 


mil knapperen Mitteln auszukommen ist, als mit der auf langen Versuchsserien 
basierenden Frequenzinterpretalion. In der Tat kann man hier auf die von Cour- 
not eingeführte Unterscheidung zwischen logischer und physischer Unmüglichkeit 
zurückgreifen. Hienach ist ein Ereignis physisch unmüglich, wenn die Wahr- 
scheinlichkeit seines Eïintreffens wohl denkbar, aber unendlich klein ist. Die 
Brücke von der Theorie zur Wirklichkeit wird nun von Anderson *® /olgerichtiq 
millels des von ihm als Cournotfsches Lemma bezeichneten Erfahrungssalzes 
geschlagen, wonach EÉreignisse mit sehr kleiner Wahrscheinlichkeit sehr selten 
einzutreten pflegen. Borel$ nennt diese Erfahrungsregel Loi unique du 
Hasard, und man kann ihr auch die Fassung geben: Gegenüber Ereignissen 
mil genügend kleiner Wahrscheinlichkeit kann man sich so verhalten, wie wenn 
ihr Eïintreten nicht zu erwarten wäre. Dieser Satz ist zweifellos ausser-mathe- 
matischer Natur, aber er ist von allen Wahrscheinlichkeitstheoretikern anerkannt, 
wenn auch in verschiedener Interpretation. Dies ist nach Fortet’s * Meinung 
auch der Grund, weshalb trotz der verschiedenen Aufjassungen über die Defi- 
nilion der Wahrscheinlichkeit weder die Wahrscheinlichkeïtsrechnung selbst 
noch die Gültigkeit threr Anwendungen erschüttert oder angezweifelt werden 
künnen. Erkenntnistheoretisch betrachtet ist die ganze Diskussion um den 
Wahrscheinlichkeitsbegriff vom Gegensatz zwischen Rationalismus und Empi- 
rismus getragen ; an den verschiedenen Standpunktbenennungen (rationalistisch 
bezw. empiristisch, a priori bezw. a posteriori, subjektiv bezw. objektiv, mathe- 
malisch bezw. statistisch, orthodox bezw. modern) tritt dies rein äusserlich schon 
in Erscheinung. Die Lüsung des Konfliktes kann unseres Erachtens nur aus 
der richtigen Erkenntnis des Wesens und Wertes einer Theorie für die Erfor- 


schung der Wirklichkeil erfolgen. 
H. JECKLIN. 
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DIE WAHRSCHEINLICHKEITSTHEORIE 
IM LICHTE DER DIALEKTISCHEN PHILOSOPHIE 


Es gibt wohl kaum einen Zweig der Wissenschaÿjt, der verhältnismässig so 
jung und gleichzeitig, namentlich in den letzten Jahrzehnten, so bedeutungsvoll 
geworden ist wie die Wahrscheinlichkeitstheorie. Das hat den Verfasser dieses 
Aufsatzes bewogen, an die Redaktion der Dialectica zu gelangen mit der Bitte, 
ein besonderes Heft den Grundproblemen dieser Disziplin zu widmen. 

Ueberall, wo eine Statistik aufgestellt werden kann, tritt auch der Wakhr- 
scheinlichkeitsbegriff in seiner allerdings noch rudimentären Form zutage. Aber 
gerade in dieser, durch menschlichen Scharfsinn noch «unverdorbenen » 
Konzeption, ist der Wahrscheinlichkeïitsbegriff am umfassendsten. Er charak- 
terisiert die ursprüngliche Eigenart, nämlich das zufallsartige, stochastische 
einer Erscheinung. Da fast jedes, um nicht zu sagen jedes Vorkommnis im 
täglichen Leben ein stochastisches Verhalten aufweist, das zweckmässig mit 
dem Wort «wahrscheinlich» gekennzeichnet werden kann, liegt hier die 
ursprüngliche und gleichzeitig allgemeinste Bedeutung dieses Begrifjes. Jede 
Einengung — jede Präzisierung — bedeutet einen Abbruch, eine Schmälerung 
seiner allgemeinen Gültigkeit. Seine Existenz als Begriff ist seine grôsste 
und wertvollste Eigenschaîft. T'atsächlich ist der Wakhrscheinlichkeitsbegriff 
nicht dort, wo er unter idealen Verhältnissen gedacht wird, wie z. B. in einem 
mathematischen Kollektiv ; denn in diesem Fall wäre er nirgends. Der Wahr- 
scheinlichkettsbegriff tritt uns dagegen im realen Geschehen überall entgegen. 
So hat es durchaus einen Sinn und kann hôchst nützlich sein, von der Wahr- 
scheinlichkeit einer Naturkatastrophe oder einer Volksmeinung zu sprechen. 

Wir hallen also folgendes fest, und diese Feststellung ist unseres Erachtens 
sehr bedeutsam: Das Gebiet der Wahrscheinlichkeïitstheorie umfasst alle 
Erscheinungen, denen man das Prädikat « wahrscheinlich » zuordnen kann. 
Anerkennt man diese allgemeine, naturgegebene Betrachtungsweïse, so ergeben 
sich im wesentlichen nachstehende Folgerungen : 

Es ist unverkennbar, dass die Kenntnisse des Menschen über das Verhalten 
von Massenerscheinungen, das Wissen um die Wahrscheinlichkeit, wesentlich 
zur Ausgestallung des Wirtschaftslebens beigetragen haben. Das gesamte 
moderne Versicherungswesen, die Statistik und verschiedene Eïinrichtungen 
stützen sich auf dieses Wissen. Dabei fällt nicht nur' die Menschenmasse mit 
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thren T'endenzen und Ausartungen ins Gewicht, sondern viele andere Massen 
von Dingen, die ständig an Bedeutung gewinnen. Ob es sich um Atome, Bakte- 
rien oder Menschen handell, immer wieder ist es die Masse, die ihre über- 
wälligende Macht entjaltet. Je weiter die Entwicklung geht, desto mehr tritt 
der Eïinzeljall hinter die Gesamtheit zurück, und er wird dieser untergeordnet. 
— Das einzige aber, das der Mensch der Uebermacht der Vielheit entgegen- 
slellen kann, ist sein Wissen und Gewissen. So wie es ihm gelingt, das Verhalten 
der Masse zu erkennen, wird es thm môglich sein, die Masse zu beeinflussen, 
dem kuwturellen Fortschritt unterzuordnen und ihre unheimlichen Kräfle zu 
bändigen. Das Wissen um die Geselzmässigkeit der Massenerscheinungen ist 
deshalb für den Lebenskampf unentbehrlich geworden. 

Es unterliegt keinem Zweifel, dass dem Mathematiker hier eine verant- 
wortungsvolle Aufgabe erwachsen ist. Die grossen Zweige der Sozialversiche- 
rung:  Allersversicherung, Unfallversicherung, Krankenversicherung  usw. 
zeigen eindeutig, dass die ursprüngliche Idee, die Entdeckung des wahrschein- 
lichkeitsgemässen Verhallens einer Bevôlkerung für die spätere Entwicklung 
dieser Gebiete ausschlaggebend war. Es war der Mathematiker, der die Türe zu 
einer praktisch ausserordentlich bedeutungsvollen Neugestaltung des Wirt- 
schaftslebens geüffnet hat. 

Im Vergleich zu diesem Erfolg und zu der hohen Aujgabe, die dem 
Mathematiker gestellt ist, sowie im Vergleich zu den Müglichkeiten und 
Notwendigkeiten der Abklärung von so und so vielen Forschungsgebieten und 
angesichts des Mangels an klaren Erkenntnis- und Forschungsmethoden, ist 
der gegenwärtige Stand der Wahrscheinlichkeïtstheorie unbefriedigend. Es 
will uns scheinen, dass sie in erster Linie einer eigentlichen Befreiung, einer 
Loslüsung von unhaltbar gewordenen Denksystemen bedarf. Wir denken an 
eine Art Befreiung, wie sie sich auf andern Wissensgebieten, so in der Geometrie, 
durch die Aufstellung der nicht-euklidischen Geometrien oder in der modernen 
Physik durch die Idee der Komplementarität vollzogen hat. In dieser Hinsicht 
ist die Wahrscheinlichkeitstheorie irgendwie in Rückstand. Die Lücke zwischen 
Theorie und Wirklichkeit, zwischen Notwendigkeit und Môglichkeit, ist derart 
gross, dass man sich fragen muss, ob hier nicht ein wesentliches, auf Tradition 
und Unfreiheit des Gedankenfluges beruhendes Unvermügen vorliegt. Ist es 
wirklich anzunehmen, dass alle Môglichkeiten tatsächlich erschüpjt sind, dass 
die Wahrscheinlichkeitstheorie in der vorliegenden Form elwas endgültig 
Gegebenes ist, oder ist es nicht vielmehr so, dass sie sich am Anfang ihrer 
Entwicklung befindet, dass ihr Aufschwung erst noch bevorsteht. Der Verfasser 
dieser Zeilen ist als Anhänger der dialektischen Philosophie nach Gonseth 
letzterer Ansicht. In voller Würdigung des Erreichten, ohne die bestehenden 
Errungenschaften irgendwie schmälern und ohne die Verdienste der grossen 
Wahrscheinlichkeitstheoretiker, insbesondere auch der Gelehrten, die sich in 
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dieser Nummer geäussert haben, in Frage stellen zu wollen, vertrilt er die 
Aufjassung, dass die eigentliche Entwicklung erst noch einselzen wird. Diese 
Ansicht mag vielleicht als ein billiges Versprechen klingen. Wir glauben jedoch, 
dass viele Anzeichen für sie sprechen und wollen uns bemühen, so qut das im 
Rahmen eines Aufsatzes geht, unsere Zuversicht zu begründen. 

Für die ausgesprochene Aufjassung besteht tatsächlich ein tieferer Grund. 
Es ist so, dass die Grundidee der dialektischen Philosophie idoneistischer 
Prägung dazu berujen erscheint, den Weg für die Weiterentwicklung der Wahr- 
scheinlichkeitsrechnung zu weisen. Zu jeder Wissenschajt gehôrt eine Philo- 
sophie, und wenn eine Wissenschaft an einen toten Punkt gelangt ist; dann 
ist es meistens ihre Philosophie, die den Anforderungen nicht mehr genügt, 
die ersetzt werden muss. Aber welche Tatsachen berechtigen uns zu einer solchen 
Aufjassung und mit welchem Recht kann ein philosophisches System, das noch 
mit dem Glanze seines unbestreitbaren Erfolges umgeben ist, verworfen 
werden ? 

Das Ringen um eine neue Aufjassung geht aus den eingegangenen Bet- 
trägen zu diesem Heft deutlich hervor. Sie sind weit davon entfernt, eine ein- 
heitliche Richtung zu weisen. Die alte Kontroverse zwischen Rationalisten 
und Empiristen tritt deutlich zutage. Wo die Gedanken klar ausgesprochen 
werden, prallen sie aufeinander mit kaum zu überbietender Schärfe. Ist die 


eine von ihnen falsch oder sind es beide ? Falsch sind sie nicht, aber ihre philo- 


sophischen Systeme genügen nicht. Wenn Paul Lévy in seiner geistreichen 
Auseinandersetzung mit den Empiristen auf den unbestreitbaren Verdienst 
der axiomatischen Begründung der Wakhrscheinlichkeitsrechnung, wie sie unter 
den Auspizien des Rationalismus erfolgt ist, hinweist, so muss man ihm durchaus 
zustimmen. Hierin liegt die Stärke seiner Argumentation, die Stärke einer 
philosophischen Betrachtungsweise, der um die Entwicklung der Wissenschaft 
grosse Verdienste zukommt. Wenn aber der gleiche Autor anderseits sagt: 
«.. J'oserai dire que vingt-cinq années de réflexion m'ont convaincu que la 
question des fondements du calcul des probabilités est résolue aussi bien qu’elle 
peut l'être pour la théorie rationaliste, qui est vraie, et seule vraie », so künnen wir 
ihm nicht mehr zustimmen. Es ist richtig, dass die Frage der Grundlagen der 
Wakhrscheinlichkeit nach ihrem gegenwärtigen Stand soweit gelôst ist, als das 
nach der rationalistischen Auffassung môüglich ist — aber eben soweit und nur 
soweit. Der Nachsatz: «qui est vraie, et seule vraie», ist ein Glaubens- 
bekenntnis, aber nicht mehr. Im Lichte der dialektischen Philosophie geht das 
Prädikat « vraie et seule vraie » entschieden zu weit. Wokher sollen wir uns das 
Recht nehmen, eine solche Behauptung aufzustellen ? Welche Kriterien gestatten 
uns zu entscheiden, was wahr ist im strengen Sinne des Wortes ? Die Tatsache, 
dass der Rationalismus erfolgreich war, soll nicht bestritten werden. Aber das 
ist noch kein Beweis für seine Gültigkeit. Auch der Empirismus war nicht 
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erfolglos. Die scharfsinnigen Betrachtungen der Kollektivmasslehre, wie sie 


von verschiedenen Aultoren, insbesondere von R. v. Mises angestellt wurden 
und von verschiedenen Verfassern dieser Nummer unserer Zeitschrift fort- 
geführt werden, sind keineswegs wertlos. Sie haben im Gegenteil das Wissen 
über diesen Gegenstand wesentlich vertieft. Ihre Ergebnisse haben gezeiqt, dass 
die klassische Wahrscheinlichkeitstheorie, trotz ihrem bewunderungswürdigen 
Aufbau, zufolge ihrer notwendigen Beschränkung auf ideale, der Theorie der 
Gläückspiele entnommenen Verhältnisse, den Anforderungen des eingangs 
umschriebenen allgemeinen Gebietes der Wahrscheinlichkeitsrechnung nicht 
genügt. Die Errungenschaften der Kollektivmasslehre müssen  anerkannt 
werden, trotzdem sie einerseits in der klassischen Wahrscheinlichkeitstheorie 
— streng genommen — keinen Plalz finden und anderseits mit ihnen allein, 
ohne die Unterlagen der klassischen Theorie, nicht auszukommen ist. Hierin 
liegt das Dilemma. Weder der Empirismus, noch der Rationalismus, noch der 
Posilivismus ist ausreichend, um die philosophische Basis der sich aufdrängenden 
Weiterentwicklung der Wakhrscheinlichkeitstheorie zu bilden. Denn bekennt 
man sich zur rationalistischen Aufjassung, so ist die Folge davon, dass man 
sich vor ein wissenschaftliches Gebäude gestellt sieht voll harmonischer Grôsse, 
mit einer Fülle von Gedanken, Gedankenarbeit und logischem Scharfsinn, dabei 
aber unverkennbar eine ausgesprochene Lücke zwischen Theorie und Wirklich- 
keit feststellen muss. So wird der Praktiker, sei er Mediziner, Nationalükonom, 
Arzt oder Ingenieur, vergebens nach einer Anleitung zur Lüsung seiner sta- 
tistischen Aufgabe suchen. Man wird ihm konsequenterweise versichern müssen, 
die ganze Theorie sei trotz der gewalligen Vorarbeit an sinnreichen Gedanken- 
konstruktionen auf seine Probleme nicht anwendbar. Nicht anwendbar, weil 
im konkreten Fall keine idealen Verhältnisse vorliegen, weil die Müglichkeiten 
nicht gleichwahrscheinlich sind, weil systematische Aenderungen eintreten oder 
eintreten künnen. Wendet sich der Ratsuchende dagegen an einen Empiristen, 
so wird ihm dieser ebenfalls konsequenterweise sagen, es müsse zunächst fest- 
gestellt werden, ob ein Kollektiv im Sinne der Wakhrscheinlichkeïtsrechnung 
vorliegt und dazu müsse er sich Zeit nehmen, vorerst unendlich vtele Beobach- 
tungen anstellen und erst dann werde man ihm sagen kônnen, ob überhaupt 
eine Anwendung môglick sei. Damit entwertet und verurteilt der Mathematiker 
selbst seine Erfindungen zu Gedankensystemen ohne praktische Bedeutung. 
T'atsächlich gibt es auch Mathematiker, die immer wieder vor einer Anwendung 
der Wahrscheinlichkeitsrechnung warnen und bestrebt sind, nachzuweïsen, 
sie sei auf so und soviele Gebiete nicht anwendbar. Mit folgerichtiger Konse- 
quenz müssen sie zulassen, dass an die Stelle der bestmüglichen Folgerungen 
nach mathematischen Grundsätzen und mathematischer Denkart ein Entscheid 
nach anderen Beurteilungsmethoden z. B. nach dem Fingerspitengefühl tri. 

Wir müchten selbstverständlich keineswegs einer gedankenlosen Anwendung 
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der Mathematik auf praktische Probleme Vorschub leisten. Doch sind wir 
überzeugt, dass die dargelegte Einstellung einer Entwertung der eigenen Wissen- 
schaft gleichkommt und deshalb als eine Dekadenz zu betrachten ist. Es kann 
nicht Sinn und Zweck einer Disziplin sein, sich abzuschliessen, sich auf 
wirklichkeitsfremde Verhältnisse zu beschränken. Eine solche Einstellung führt 
dazu, dass in der Praxis die mathematische Arbeitsweise immer mehr in den 
Hintergrund tritt, um Verfahren und Ansichten Platz zu machen, die weil 
weniger erspriesslich und zuverlässig sind, während es anderseits bitter not- 
wendig wäre, wenn an die Stelle leichtfertiger Entschlüsse und unüberlegter 
Massnahmen rationale Methoden treten würden. 

Zusammen/assend kann also gesagt werden, dass die betrachteten philoso- 
phischen Systeme wohl wertvoll waren, heute aber nicht mehr genügen. In der 
Geschichte der Philosophie der Wissenschaft werden sie als erfolgreiche Etappen 
eingehen und zwar um so erfolgreicher, je rascher sie nunmehr überwunden 
werden. Jedes Festhaltenwollen an einem bestimmten System ist ein Hindernis 
für die Weiterentwicklung der Wissenschaft. | 

Diese Feststellung gilt allgemein für die gesamte Wissenschaft, ganz 
besonders aber für die Wahrscheinlichkeitstheorie. Wenn es für diese Disziplin 
so schwer war, zur Entfaltung zu gelangen, so wohl deswegen, weil sie unter 
den jeweils vorherrschenden philosophischen Systemen den erforderlichen 
Nährboden nicht fand. So dürfte es ohne weiteres einleuchten, dass in einer 
Philosophie, in welcher das Kausalitätsprinzip uneingeschränkt Anerkennung 

findet, für den WahrseReneRReisbegron Ken PlaE mehr vorhanden ist; denn 
letzterer steht zu jenem in unversühnlichem Gegensatz. Sein Auÿftreten setzt 
einen Unterbruch in der Kette des kausalen Zusammenhanges voraus, was 
dem Kausalitätsprinzip widerspricht. Die heissen Bemühungen der Philo- 
sophen, diesen Widerspruch zu lôsen, sind bekannt. Es ist klar, dass ohne 
Konzessionen nicht auszukommen ist. Eine davon verdient besondere Beachtung, 
sie erfreut sich denn auch weitgehender Zustimmung, und wurde von Spinoza 
klar ausgesprochen. Sie stützt sich auf eine unbestreitbare Tatsache, nämlich 
— man gestatte uns, sie unverblümt zu nennen — auf die Beschränktheit 
des menschlichen Erkennungsvermügens. Es wird angenommen, dass es dem 
Unvermügen unseres Verstandes, den Kausalzusammenhang bei verwickelten 
Ereignissen, wie etwa beim elementaren Vorgang des Wäürfelspieles, zu erkennen, 
zu verdanken sei, dass der Wahrscheinlichkeïtsbegriff in der Wissenschaft 
Eingang gefunden hat. Demnach hat die Wahrscheinlichkeitsrechnung nur 
solange eine Existenzberechtigung, als die Beschränktheit des menschlichen 
Geïstes andauert. In der Tat wurde folgerichtig die Fiktion des Laplace’schen 
Geistes aufgestellt, von dem man annimmt, dass er ohne den Wahrscheinlich- 
keitsbegriff auskommt. Nach dieser Aufjassung wäre die Wahrscheinlichkeits- 
theorie somit das Merkmal einer Entwicklungsstufe in der Menschheits- 
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geschichle, ein Zusland, der überwunden werden muss und das Ausmass 
seiner wissenschaftlichen Bedeutung zugleich ein Gradmesser für das geistige 
Unvermôügen einer Zeitepoche. 

Wir sind weit davon entfernt, die Beschränktheit des menschlichen Denk- 
vermôügens zu bestreiten. Im Gegenteil will es uns scheinen, dass sie noch weiter 
reicht, als gemeinhin angenommen wird. Wir fragen uns aber, ob die Argumen- 
lation hinsichtlich des Wahrscheinlichkeïitsbegriffes haltbar ist. Kônnte man 
nicht mit gleichem Recht dasselbe vom Kausalitälsprinzip sagen? Wer hat 
bewiesen, dass dieses Prinzip allgemein oder auch nur in einem einzigen 
Spezialfall erfüllt ist? Muss man nicht auch von ihm sagen, dass es letzten 
Endes nicht mehr als eine Fiktion, eine nützliche Abstraktion ist, also nicht 
mehr und nicht weniger als der Wahrscheinlichkeitsbegriff. — Ein Festhalten am 
Glaubensbekenntnis über die allgemein reale Gellung des Kausalitätsprinzips 
bedeutet anderseits eine Ignorierung von wesentlichen Erscheinungen der 
Wirklichkeit. Wir denken an die Erscheinungen des Zufalles, der Willkür, 
der Willensfreiheit, die sich in ebenso realer Weise manifestieren wie diejenigen 
des Zwanges und Gebundenseins. Es ist der Wahrscheinlichkeitsbegriff, der 
gestattet, die letztgenannten Erscheinungsformen ein wenig zu deuten und zu 
verstehen, und darin liegt seine grundsätzliche Bedeutung. 

Im Vergleich zur Fülle des Unerforschten — zur Uner/assbarkeit des realen 
Geschehens ist es überraschend, wie ausserordentlich dienlich der Wahrschein- 
lichkeitsbegriff sein kann. Betrachten wir als Beispiel das Sterblichkeitsphäno- 
men in einer Bevôlkerung. Ein Todesfall kann auf sehr verschiedene Arten 
zuslandekommen ; trotzdem lässt sich sein Auftreten zwar bei weitem nicht 
restlos, aber für den praktischen Gebrauch oft in befriedigender Weise mit Hiülfe 
eines Urnenschemas darstellen. Diese ganze Darstellung ist zwar nicht mehr als 
eine Deutung; sie ist sicher nicht in allen Eïinzelheiten zutrefjend, trotzdem 
aber innerhalb von einem bestimmten Rahmen ein wichtiges Hilfsmittel. 

Mit diesen Feststellungen, auf die wir besonders Gewicht legen, verbindet 
sich bereits eine grundsätzlich andere Aufjassung über Grundlagen, Bedeutung 
und Sinn der Wahrscheinlichkeitstheorie. Sie lassen deutlich erkennen, dass 
der Wert einer Theorie nicht in threm realen Gehalt, sondern in threr Idoneität 
zur verstandesmässigen Erfassung der Vorgänge in der Aussenwelt liegt. Diese 
fundamentale Erkenntnis stammt von Gonseth. Er hat sie in seinen zahl- 
reichen Schriften für verschiedene Zweige der Wissenschaft begründet. Es ist 
hier unmüglich, alle grundsätzlichen Aspekte, die sich daraus ergeben, zu 
entwickeln. Wir sind jedoch überzeugt, dass diese Erkenntnis auch für die 
Wahrscheinlichkeitsrechnung grundlegend ist. Sie liefert die Basis für thren 
Aufbau, der ihr bis heule, wie wir gezeigt haben, vollständig ermangelt hat. 
Gonseth sagl : « L'intention dialectique cherche à édifier un système de concepts, 
un jeu d'idées à la fois adéquat, cohérent et efficace: une dialectique. L'idéal 
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métaphysique est un idéal de perfection absolue ; l'intention dialectique est une 
intention de perfection relative, provisoire et révisible. » 

Kaum auf einem andern Gebiete liegen die Dinge so klar wie in der Wakhr- 
scheinlichkeitsrechnung. Die Aufjassungen über thre Bedeutung auf wirtschaft- 
lichem Gebiete, insbesondere auch im Versicherungswesen, haben sich im Laufe 
der Zeit gründlich geändert. Sie haben sich derart gewandelt, dass die neue Idee 
nur ausgesprochen werden muss, um das vorzufinden, was durch praktische 
Erfahrung für die neue Aufjassung reif wurde. Die Entdecker der Gesetz- 
mässigkeiten im Leben und Sterben einer Bevôlkerung sprachen von einer 
gôttlichen Ordnung. Sie dachten an einen nach gôüttlichem Ratschluss 
prädestinierten Vorgang. Heute denkt man anders, man weiss, dass diese 
Gesetzmässigkeiten bestimmter Art sind, dass sie unter ähnlichen Voraus- 
setzungen auch in andern Vorgängen zum Vorschein kommen, sodass man 
heute eher überrascht wäre, wenn sie nicht auftreten würden. Es waren die 
Feststellungen beim Urnensystem, die das Verständnis für diese Phänomene 
gejordert haben. Ohne diese Vorstellung wäre unser Aufjassungsvermôügen 
niemals so reich und vielgestaltig. Anderseits hat man aber auch gelernt, dass 
diese Analogie in mancher Hinsicht unzuverlässig ist. Man ist darüber einig, 
dass thr niemals absolute und endgültige Bedeutung zukommt. So weist Anderson 

-mit Recht darauf hin, dass das Gesetz der grossen Zahlen bei weitem nicht 
immer und derart erfüllt wird, wie die Theorie erwarten lässt. Daraus folgt mit 
| aller Deutlichkeit, dass die Wahrscheinlichkeitstheorie nicht nach ihrem ver- 
meintlichen Wakhrheitsgehalt, sondern nach threr Tauglichkeïit als Hilfsmittel 
zur Deutung der Wirklichkeit bewertet werden muss. Unter diesem Gesichts- 
“winkel erscheinen die Errungenschaften der Wahrscheinlichkeitsrechnung in 
einem andern Licht. Sie werden im wesentlichen nicht entwertet, aber umge- 
wertet. Ihre Bedeutung wird eine andere : Sie sind nicht mehr ganze oder halbe 
Wahrheiten, sondern mehr oder weniger wertvolle Hilfsmittel für die verstan- 
desmässige ÆErfassung der Wirklichkeit. Damit wird auch die Aufgabe des 
mathematischen Genius eine andere: In der Erkenntnis, dass die Natur vom 
Menschen nicht soviel verlangt, wie er sich einbildet, ihn in zuvorkommender 
Weise sogar von der Definition des Wakhrscheinlichkeitsbegriffes enthebt, 
beschränkt sich die Aufgabe des Forschers auf die Verständlichmachung des 
Geschehens im Hinblick auf die Notwendigkeiten, Erfordernisse, Belange und 
Pflichten des Daseins. Das kann in einfacher Weise durch schematische Dar- 
stellungen geschehen, wozu die Phantasie, die Kraft des Denkens, der Spürsinn 
und die Geduld die notwendigen, aber auch hinreichenden Voraussetzungen 
bilden. Es kommt auf die Erweilerung der Theorie an, auf die Aufdeckung 
neuer Darstellungsmüglichkeïiten, auf die Einführung neuer Begrifissysteme. 
« Das jeweils Produzierte wird versuchsweïse als Deutung angesetzt. » (Bernays) 
Wert und Unwert der Theorie ergeben sich dann aus der Erfahrung. Es handelt 


WAHRSCHEINLICHKEITSTHEORIE UND WIRKLICHKEIT 23 


sich also im wesentlichen um ein methodisches Vorgehen, das sich auf die 
Môglichkeit des Verstehens, sfalt auf die unhaltbare Annahme eines positiven 
Wissens stülzt. 

Belrachlet man die Wahrscheinlichkeitstheorie unter diesem Aspekt, so 
ergibt sich in Anbetracht ihrer noch bestehenden Hüfslosigkeit in der Deutung 
des realen Geschehens die Wünschbarkeit einer Erweiterung. Ein Ausbau 
erscheint um so nolwendiger als, wie bereits hingewiesen wurde, die Wakhr- 
scheinlichkeitsrechnung das Gebiet zu erfassen sucht, welches nach unseren 
Wahrnehmungen vornehmlich durch die Erscheinungen des Zufalls, durch 
die Willkür und Willensfreiheit, also vornehmlich durch Erscheinungen der 
belebten Welt beherrscht wird. In diesem allgemeinen Programm werden die 
vorhandenen Resultate der Wakhrscheinlichkeïtstheorie selbstverständlich wertvoll 
sein, unabhängig welcher Geistesrichtung sie entstammen. Werlvoll dürften 
auch manche Anregungen der Auloren dieser Zeitschrift sein. Wir denken 
besonders an die von Polya entwickelte Idee einer « Logic of plausible Inference ». 
Das von ihm angedeutele induktive Verfahren hat zweijellos in der Wahrschein- 
lichkeitsrechnung einen grossen heuristischen Werl. Vom axiomatischen 
Standpunkt aus sind die Hinweise von Bartlett, wonach die Grundoperationen, 


Addition und Multiplikation durchaus nicht nur bei idealen Verhältnissen 


erfüllt sind, bemerkenswert. Sie weisen auf Môglichkeilen eines Ausbaues der 
Theorie hin. — Allgemein gesehen scheinen uns die Auffassungen von Gini 
und Finetti dem hier entwickellen Gedankenzug am nächsten zu kommen. 
Manche andere Aufjassung wird revidiert oder zumindest aus ihrem starren 
System befreit werden müssen. Wesentlich ist, dass der Fortschritt nicht durch 
philosophische Systeme, in denen bereits die Grundbegrifje und Ideen keine 
Wurzeln treiben kônnen, gehemmt oder geradezu verunmôüglicht wird. Deshalb 
schien es uns wichlig darauf hinzuweisen, dass erst das Gedankengut der 
dialektischen, idoneistischen Philosophie die Grundlagen für eine wieder- 


spruchsfreie Ausgestaltung liefert. 
P. Nozri. 


PROBABILITÉ ET CERTITUDE 


L'objet principal du calcul des probabilités est d'évaluer des probabilités 
complexes et inconnues au moyen de probabilités simples et connues. Si 
l’on arrive ainsi à calculer des probabilités dont la valeur est très petite, on 
en conclura que l'événement correspondant ne se produira presque certaine- 
ment pas. C’est ainsi que trente passages consécutifs de la rouge à la roulette 
ont une probabilité inférieure à un milliardième ; un tel phénomène est donc 
trop rare pour avoir une chance appréciable d’être observé, ce qui concorde 
avec les traditions des joueurs professionnels. Une probabilité suffisamment 
petite peut ainsi être regardée comme pratiquement équivalente à la certitude 
que le phénomène est impossible. 

Il y a loin cependant d’une telle certitude pratique à la certitude que l’on 
peut appeler absolue, faute d’un meilleur terme. On peut même affirmer qu’il 
suflirait de construire un million de roulettes dont chacune fonctionnerait 
quelques heures par jour, pour qu’une série de trente rouges soit observée 
sûrement plusieurs fois au cours d’une année. 

On peut cependant se demander si une probabilité peut différer assez 
peu de l’unité pour que l’on puisse, sans restriction aucune, la regarder comme 
équivalente à la certitude. Le mathématicien est enclin à répondre par la 
négative; il ne peut admettre qu'un nombre positif a, si petit qu'il soit, 
puisse être regardé comme nul. De l'égalité fausse a — 0, on peut, en effet, 
déduire, par des opérations fort simples et légitimes, que deux nombres 
quelconques sont égaux entre eux. Il n’y a pas de degrés dans l'erreur 
lorsqu'il s’agit de nombres et il n’est donc pas possible, quelque petit que 
soit a, de confondre la probabilité 1 — a, avec la probabilité 1, qui seule 
équivaut à la certitude. 1 

D'autre part, si un événement a une probabilité à de se produire lorsqu'on 


fait une expérience, il suffit de recommencer cette expérience n fois pour 
qu'il soit assez probable que l'événement se produira au moins une fois et, 
si l'expérience est renouvelée 100 n fois, il est presque certain que l'événement 
se produira plusieurs fois. Par suite, quelque grand que soit n, on ne devrait 


pas dire que l’événement de probabilité : est impossible, ni que l'événement 
contraire est certain. 
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I n’y a rien à objecter à ces affirmations des mathématiciens au point 
de vue de la logique abstraite; il est cependant aisé de voir qu'elles sont 
contraires au bon sens et absolument inacceptables pour la simple raison que, 
si n est très grand, il est inconcevable qu'une expérience puisse être répétée 
n fois. 

Reprenons un exemple devenu classique, celui du miracle des singes 
dactylographes. Ce miracle consisterait en ce qu’une armée de singes, en 
tapant au hasard sur des machines à écrire, reconstituerait sans erreur 
l'ensemble des volumes de la Bibliothèque Nationale. Si on évalue à un million 
le nombre moyen de lettres de chacun d'eux, un calcul simple montre que 
la probabilité de ce miracle est égale à l'unité divisée par un nombre N de 
plus de mille milliards de chiffres. Il faudrait donc, pour avoir quelque chance 
de réussir, recommencer l'expérience N fois, c’est-à-dire plus de 10" fois, 
n dépassant mille milliards. Essayons de comprendre ce que peut signifier 
un tel nombre, inconcevable pour notre imagination. 

Pour imaginer la répétition d’une expérience, nous ne disposons que du 
temps et de l’espace. Parlons d’abord du temps. Les astronomes et les géolo- 
gues sont d’accord pour évaluer à quelques milliards d'années l’âge de la 
terre et du système solaire, ainsi que la durée possible d’une évolution du 
soleil, qui rendrait la terre inhabitable. D'autre part, les physiciens évaluent 
à un dix-milliardième de seconde l'intervalle de temps qui sépare deux chocs 
d’une même molécule gazeuse en théorie cinétique. On en conclut que pour 
une molécule donnée, le nombre de ces chocs, qui sont l’un des phénomènes 
les plus simples, s'élève tout au plus à un million de milliards de milliards de 
milliards, c’est-à-dire à moins de 10%, au cours de la plus longue période 
cosmique qui nous intéresse. | 

Passons à l’espace. Combien pourrait contenir d’atomes lunivers qui 
nous est accessible ? Les dimensions de cet univers sont de l’ordre de milliards 
d’années-lumière, c’est-à-dire de moins d’un milliard de milliards de milliards 
de centimètres, tandis que le centimètre est inférieur à un milliard de milliards 
de fois la plus petite dimension de l'atome. Le rapport entre cette dimension 
et celle de l'univers est donc inférieur à 105%, dont le cube est 100, Tel 
est le nombre maximum d’atomes que l’on pourrait entasser dans l'univers. 
Si donc nous disposons à la fois du temps et de l’espace, le nombre de fois 
que pourra être observé le plus fréquent des phénomènes, dans l'univers 
entier, sera inférieur à 1020 au cours de la durée de la terre. En imaginant une 
durée qui serait par rapport à la durée de la terre ce qu'est celle-ci par rapport 
au milliardième de seconde et un espace qui serait par. rapport à notre 
univers ce qu'est celui-ci par rapport à un atome, on arriverait tout au plus 
au carré de 102%, c’est-à-dire à 104%, ou à un nombre de 400 chiffres. Nous 
sommes bien loin des nombres de milliards de chiffres auxquels nous a con- 
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duit le miracle des singes dactylographes. Le calcul est donc d’accord avec 
le bon sens pour conclure qu’un tel miracle est rigoureusement impossible. 
Il en est de même du miracle de Jeans, c’est-à-dire d’un litre d’eau placé 
dans un four à mille degrés et qui sé transformerait en glace. D’après la 
thermodynamique, la probabilité d'un tel miracle est du même ordre que 
celle du miracle des singes dactylographes. Au lieu de le déclarer hautement 
improbable, comme le proposait Jeans, je pense qu'on doit le déclarer 
rigoureusement impossible, car les dimensions et la durée de l’univers ne 
permettent pas de recommencer l'expérience assez souvent pour qu'elle 
ait quelque chance de réussir. 

Concluons qu’une probabilité assez voisine de l’unité (nous avons précisé 
ce que l’on doit entendre par là) doit être regardée comme rigoureusement 
équivalente à la certitude, au moins par tous les hommes. Nous n'avons 
pas à nous demander ce qu’en penseraient des dieux éternels et omni- 
présents. 

A cette conclusion, je voudrais ajouter deux remarques. 

Nous avons raisonné sur les conceptions euclidiennes et newtoniennes 
de l’espace et du temps, telle qu’elles ont été admises jusqu’à la fin du 
XIXe siècle; on sait que les théories d’Einstein ont conduit à regarder comme 
possible, sinon probable, l'hypothèse de l’univers fini. Le développement 
de ces théories a même conduit à envisager l'hypothèse du temps fini dans 
l'avenir et dans le passé. Cette hypothèse n’est qu’un jeu pour le mathémati- 
cien qui, étant donnée une variable { qui varie en croissant de — oo à + co, 
peut imaginer une fonction T de { qui variera en croissant de 0 à 1 lorsque t 
variera de — ©° à + co. On peut donc convenir de remplacer { par T pour 
mesurer le temps. Mais le physicien et le philosophe exigeront que T' corres- 
ponde à la notion commune du temps et c’est la difficulté que doivent sur- 
monter ceux qui proposent l'hypothèse du temps fini. Il est clair que les 
hypothèses de l’espace fini et du temps fini renforceraient encore nos conclu- 
sions. Telle est notre première remarque, et voici la seconde. 

Si l’on veut appliquer la théorie des probabilités à des problèmes cosmo- 
goniques ou biologiques, en recherchant si certaines matières brutes ou 
vivantes ont pu être produites par le hasard, au cours des âges, il est essentiel 
de tenir compte de l'indépendance des probabilités. On sait en effet que la 
matière cristallisée et la matière vivante ont la propriété de s’accroître sous 
une forme déterminée, c’est-à-dire suivant des lois qui leur sont propres, 
et qui ne sont pas des lois de probabilité. Si nous reprenons l'exemple des 
singes dactylographes, il est évident qu’il est a priori aussi improbable 
d'obtenir un million de volumes dont toutes les lettres sont la lettre a, que 
d'obtenir un million de volumes d’une certaine bibliothèque. On pourrait 
cependant imaginer qu’une machine à écrire, par suite d’une malfaçon, ne 
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Q puisse écrire que la lettre a. La probabilité pour que des milliers de machines 

_ aient la même malfaçon est assurément très faible, mais néanmoins infini- 
ment plus grande que la probabilité du miracle des singes dactylographes. 
La probabilité n’est pas non plus négligeable qu’un singe, par instinct d’imi- 
tation, ayant vu quelqu'un frapper plusieurs fois de suite sur une même 
touche, continue à taper indéfiniment sur cette touche. Pour ces raisons 
la reproduction des volumes d’une bibliothèque est un miracle bien plus 
invraisemblable que la production du même nombre de pages reproduisant 


toujours la même lettre. 
Emile BOREL. 


PRELIMINARY REMARKS ON A LOGIC 
OF PLAUSIBLE INFERENCE 


1. INTRODUCTION 


In order to accomplish anything in the space at our disposal, we must 
restrict ourselves to a clearly circumscribed, not too general problem. 

We wish to clarify the nature of the theory of probability. There are 
two conceptions of this theory which certainly deserve careful considera- 
tion. Seen from the first viewpoint, the theory of probability appears as 
the theory of a certain kind of observable phenomena, the fheory of random 
mass phenomena, and probability itself as the theoretical counter-part of long- 
run relative frequency. Seen from the second viewpoint, the theory of proba- 
bility appears as the logic of plausible inference and probalility as the degree 
of reasonable belief. It would take up too much space to go beyond these 
slogans and to characterize the two standpoints more closely. We may 
observe, however, that the first standpoint is essentially that of R. von 
Mises, the second that of J. M. Keynes. 

Those acquainted with the applications of the Calculus of Probability 
can scarcely doubt that it can usefully serve as a theory of random mass 
phenomena. The claim of the adherents of the second viewpoint is (or 
should be) that the calculus of probability can do more: taken as it is, or 
reasonably expanded, it can also serve as a logic of plausible inference. 

Is this claim justified ? This question seems to be the most controversial 
in current philosophical discussions of probability, and it certainly deserves 
a high degree of interest. I prefer not to add one more shade of opinion to 
all the nuances which appear in the answers already given, but I wish instead 
to ask some preliminary questions, some « questions préalables »: Has the 
«logic of plausible inference » any tangible object at all? Is there such a 
thing as plausible inference on some objective, impersonal level? And if 
there is such a kind of inference, does it have general marks of validity, 
independent of the particular object of application ? 

Again, I do not wish to put my personal opinion into the foreground, 
nor do I wish to hide it, but I prefer to suggest it through carefully selected 
examples. My opinion should be taken for what it is worth, but my examples 
may inject some new blood into a somewhat repetitious philosophical dis- 
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cussion, and may be of some value to the sincere advocate of any opinion 
provided that he wishes to base his opinion upon the analogy of observable 
facts and not merely upon some traditional verbalism or traditional forma- 
lism. 


2. À FIRST SOURCE OF EXAMPLES : INDUCTIVE RESEARCH 
IN MATHEMATICS 


The term «induction » is used here in the meaning familiar to naturalists 
and not in the meaning which is usual in mathematics. Non-mathematical 
induction plays an important rôle in mathematical research. As this is not 
widely enough known, a concrete example of the simplest kind may be 
useful. 


I assume here that the reader does not know the story, or at least not the 
whole story, of the following conjecture, due to Goldbach: Any even number 
which is not a prime itself, is the sum of {wo primes. (The primes are 2, 3, 5, 7, 
11, The number 1 is not regarded as a prime, and the only even prime 
number, 2, is set apart by the above formulation.) At any rate, the reader is 
invited to judge for himself the merits of Goldbach’s conjecture, in the light 
of the evidence which he can derive from the following table: 


PSE ES) TERROIR TORRES SAIT 
6=3+3 RE 185 119 = 7H 
CPSEMERC ITEMS 77 20 = 34 17 —7 +13 


As this table shows, no even number between 4 and 20 contradicts Goldbach’s 
conjecture, since each such number is the sum of two primes at least in one 
way. Is this mere coincidence, or are the cases before us a fair indication of a 
general law? If the reader thinks that these few cases do not afford sufficient 
evidence for or against the conjecture, he may take the next even number 22, 
then 24, and 50 on, or he may try some larger number. 

Let us take the number 60. It is even, but is it the sum of two primes ? 


Is it true that 
60 =.3 + prime ? 


No, 57 is not a prime. Is 

60 = 5 + prime ? 
The answer is again « No »: 55 is not a prime. If it goes on in this way, the 
conjecture will be exploded. Yet the next trial vields 


60 = 7 + 53 


and 53 is a prime. The conjecture has been verified in one more case. 

The contrary outcome would have settled the fate of Goldbach’s conjecture 
once and for all. If, trying all primes under a given even number, such as 60, 
you never arrive at a decomposition into a sum of two primes, vou therebv 
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explode the conjecture irrevocably. Having verified the conjecture in the 
case of the even number 60, you can not reach such a definite conclusion. 
You certainly do not prove the theorem by a single verification. It is natural, 
however, to interpret such a verification as a favorable sign, speaking for the 
conjecture, although, of course, it is left to your personal judgement how 
much weight you attach to this favorable sign. 
| Plausible conclusions of this kind, but usually of a more complex and more 
sophisticated nature, play an important rôle in the creative work of mathema- 
ticians. 


A standard procedure of experimental science consists in testing the 
particular consequences of a general conjecture and judging of the conjecture 
according to the results of the tests. This procedure is widely used also in 
mathematics, but not as a procedure of demonstration, of course, only as a 
procedure of discovery. The mathematical domain yields particularly clear 
and instructive examples of the procedure 1. 


3. À SECOND SOURCE OF EXAMPLES: INVENTIVE REASONING 


Anybody who has spent some time and effort in acquiring a certain 
skill in solving problems (mathematical problems, chess problems, crossword 
puzzles, or any other sort of problem) is familiar with the coming of a « bright 
idea ». The appearance of such an idea may be quite impressive. After a 
period of hesitation, or after intensive work without appreciable progress, 
or even after a longer or shorter interruption of our work, we suddenly and 
unexpectedly see a new face of our problem, our whole conception of it 
is reshuffled, we know what to do, a sort of plan emerges, and we have the 
feeling that now we are «on the right track ». « Ça va marcher! » 

The emerging plan is usually incomplete, often sketchy. Thus, in a chess 
problem the plan may be to block, first of all, a certain inconspicuous but 
dangerous move of the black king — we do not yet know quite how. In a 
crossword puzzle the plan may be to disregard the jumbled literal meaning 
of the clue that defines a certain word and to seek rather an anagram of 
certain words occurring in that clue. Plans concerning mathematical pro- 
blems are more instructive and more serious, but to explain them would 
- require more space, and also more effort both from the reader and from the 
writer. 

We have, of course, great confidence in our inspiration, and so in our 
plan, but we know, if we are not very naïve, that its success is by no means 


1: For further examples see [1] and [3]. (Numbers in brackets refer to the short list of 
papers at the end of the present paper.) 
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certain. The expectation that our plan will succeed is, in fact, a mere conjec- 
lure. Therefore, we look anxiously for signs and indications — as Columbus 
and his crew may have looked for signs of approaching land. 


My task is to compute a certain physical quantity associated with a given 
curve (the torsional rigidity of a homogeneous and isotropic elastic cylinder 
with a given cross-section, for instance ; the reader need not know the exact 
meaning of these terms). I have been lucky enough to have a first idea and 
I see, more or less clearly, a procedure that may lead to my objective. I do 
not quite know whether the procedure will work or not, and I am rather 
uncertain whether it is justified. Yet I hope for the best, go ahead, and arrive 
at à formula. Although the formula looks jumbled, I can see that it vields 
the correct result in the case of a circle. This observation strengthens appre- 
ciably my confidence in the method. If I knew that the formula yielded a 
correct result also in the case of an ellipse, my confidence would be still more 
strengthened. I may feel so strongly about this point that I settle down to 
work out my formula for an ellipse. 


Work aimed at the solution of a proposed problem often resembles the 
work of a scientist who tries to elucidate a conjecture by testing its various 
consequences. Seeking the solution, we conceive a plan, that is, we conjecture 
that we can arrive at the solution by following a certain course. Examining 
the possibilities of our plan, or taking the first hesitating steps towards 
carrying it out, we are constantly on the lookout for observations which 
could confirm or refute it, and our confidence in our plan rises or falls 
according to the results of such observations. 


4, À SIMPLE PATTERN OF PLAUSIBLE INFERENCE 


We begin with an example. 


I was scheduled to leave the night train at N. This was a little place which 
I scarcely knew, although I have seen it once or twice before. I remembered, 
however, that the train passes N. shortly after M., which is a somewhat larger 
town and much more familiar to me. It was late, I was sleepy, and I noticed 
only dimly the station M. Nevertheless, I prepared for getting out. I asked 
a fellow passenger about the next stop and he believed it would be N. I looked 
at my watch, and it was about the time scheduled for arrival there. Unfor- 
tunately, there was no conductor near who could have given more definite 
information and so I was a little uncertain and apprehensive when I left the 
train at the next stop and found a deserted and dark station which I was 
unable to recognize. Farther away, there were lights, and I took a few steps 


1 For further examples see [2], especially p. 213-214. 
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toward them. Doing so, I perceived something dark and high that looked 
familiar ; it looked like a watertank, perched on high poles, the ugliness of 
which had irritated me slightly on one of my former visits. At this moment 
my apprehension vanished and I had no doubt that the lights ahead were 
on the Main Street of N. which turned out to be actually the case. 


What is the point in telling such a trivial story ? It illustrates a typical 
mode of reasoning. The traveler in our story has a conjecture (that a certain 
stop is N.) and he examines anxiously every observation that could be taken 
as a sign indicating the correctness, or incorrectness, of his conjecture. He 
acts as the scientist who examines a conjectural general law by testing its 
consequences, or the problem-solver who examines a plan of the solution. 
All three cases are similar : plausible inferences concerning a certain conjecture 
are drawn from appropriate observations. The scientist, the problem-solver 
and the traveler act according to the same pattern. We wish to make explicit 
the simplest pattern of this kind, which is a single step in the composite 
pattern just exemplified. 

In section 2, we were concerned with a conjectural mathematical stat- 
ement (Goldbach’s conjecture) which we shall call «the statement À ». Let 
us recall, however, what the statement was: 


A. Any even number greater than 2 is a sum of {wo primes. 


We examined several particular cases of A. Let us call one particular 
case of À, for instance that concerned with the even number 60, the statement 
Bb: The n meaning of this abreviation is: 


B. The number 60 is a sum of two primes. 


Of course, B is a consequence of A; the general statement À implies 
its particular case B. Thus, if B turns out to bo false, A must also be false. 
This is completely clear. We have here an elementary and classical pattern 
of reasoning, the «modus tollens » of the so-called hypothetical syllogism : 


A implies B 
B false 


A false 


The horizontal line, separating the two premisses from the conclusion, 
stands as usual for the word «therefore». We have here demonstrative 
inference of a well known type. 

On the other hand, if B turns out to be true, there is no logical conclusion 
having the force of a demonstration. If 60 turns out to be a sum of two 
primes, the general statement À is certainly not refuted, but it is not proved 
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either — it only becomes somewhat more credible. We have here the following 
pattern of plausible inference : 


A implies B 
B true 


A more credible 


The horizontal line stands again for «therefore ». Let us call this pattern 
of reasoning a heuristic syllogism. The acceptance of this name should not 
prejudice us as to the value of the pattern of reasoning described by the 
name. We have still to examine this pattern thoroughly and, first of all, 
to consider further examples. 

Let us take the case of everyday behavior described at the beginning 
of the present section. The passenger preparing to leave the train has the 
following conjecture : 


A. The next stop is that place N. 


The train slows down and the passenger knows that is it due in N. at 12 : 08 
A.M. Therefore, his attention falls on the next statement. 


B. The time is now a few minutes past midnight. 


He knows, of course, even if he does not care to state it, that À implies B, 
not absolutely, but with some margin of uncertainty, and he looks nervously 
at his watch. If B is quite wrong, his confidence in À will be badly shaken. 
If B is approximately true, his confidence in A will be boosted. With an 
«à peu près» inevitable at our present level of abstraction, such changes 
in confidence conform to the two patterns displayed above, to the two 
syllogisms, the demonstrative and the heuristic. 

Finally, let us discuss inventive reasoning. Now we are concerned with 
some such conjecture as the following: 


A. My method leads to the correct result for any closed curve. 


I observe: 
B. My method yields the correct expression in the case of a circle. 


Obviously, À implies B. The problem-solver sees in the truth of B an 
encouraging sign; he is now more inclined to believe À than he was before. 
Doing so, he concludes exactly according to the pattern of heuristie syllogism 
displayed above !. 


1 The same pattern is discussed also in [2], p. 220-224, and other patterns are men- 
tioned in [3]. 
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5. DESIDERATA 


I hope that the foregoing examples have a reasonable chance of not 
being misunderstood. Unfortunately, I can hardlyÿ say as much about the 
chances of the following opinions, but I state them nevertheless. 


I. A reasonable theory of inductive procedures should be broad enough 
to include the applications of such procedures in mathematics. Not including 
heuristic inductive reasoning about mathematical subjects would reject 
an obvious analogy and deprive the theory of its clearest, and perhaps most 
instructive, examples. Including such examples may cause some embar- 
rassement, but only to false theories. If somebody wishes to stick to the 
theory that induction is based on the notion of causality, he will, of course, 
strenuously object to mathematical examples, to which causality is obviously 
irrelevant. 


IT. À reasonable theory of plausible inference should include the « heuristic 
syllogism ». Having spent some time in collecting examples of heuristic 
reasoning from as widely different domains as I could approach, I do not 
know of any pattern of plausible reasoning that would be more uriversally 
accepted or more universally applicable. 


III. Jt would be desirable to construct a theory of plausible inference, with 
or without the formalism of the calculus of probability or some extension of this 
formalism, in which it is not possible to give a numerical value to the degree 
of credence attached to any statement considered. In short, the logic of plausible 
inference, or an early chapter of such a logic, should be fully qualitative. 
I confess that the reasons for this desideratum are not immediately visible 
from the foregoing examples. TI must, however, restrict myself to recalling 
my former remarks on this point 1. 


G. P6LYA. 
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Summary 


It is shown by examples that inductive procedures which are commonly noticed only 
in the experimental sciences, are heuristically applicable also to purely mathematical 
questions. Similar processes are pointed out in inventive and everyday reasoning. A 
simple pattern of plausible inference is formulated and the bearing of these remarks on the 
current philosophical discussion of probability is hinted at, — G. P. 


Résumé 


Des exemples montrent que les procédés d’induction qu’on croit ordinairement 
n’exister que dans les sciences expérimentales, peuvent être appliqués heuristiquement 
à des questions purement mathématiques. On observe des procédés semblables aussi bien 
dans le travail créatif des inventeurs que dans la vie quotidienne. Un schéma simple de 
conclusions plausibles est formulé et la relation de ces remarques à la discussion philoso- 
phique des probabilités est indiquée. — G. P. 


Zusammenfassung 


Beispiele zeigen, dass inductive Verfahren, welche man gewôhnlich nur den experi- 
mentellen Wissenschaften zuschreibt, auch auf rein mathematische Fragen heuristisch 
anwendbar sind, Âhnliche Verfahrungsweisen sind zu beobachten sowohl im productiven 
Denken der Erfinder wie auch im täglichen Leben. Ein einfaches Schema plausiblen 
Schliessens wird aufgestellt und der Zusammenhang dieser Bemerkungen mit der philo- 
sophischen Diskussion der Wabrscheinlichkeit angedeutet, — G. P, 


CONCEPT ET MESURE DE LA PROBABILITÉ 


Longtemps la tradition a été de baser le Calcul des probabilités sur ce 
que l’on appelait la définition de la probabilité mathématique, d’après laquelle 
«la probabilité d’un événement est donnée par le rapport des cas favorables 
à l'événement à tous les cas favorables ou contraires, tous les cas étant consi- 
dérés comme également possibles ». 

Puisque «également possibles» équivaut évidemment à «également 
probables », on a objecté que la dite proposition définissait le probable avec 
le probable et représentait de la sorte un cercle vicieux. : 

Et, en tant que la proposition en question veut être une définition de la 
probabilité, l’objection n'est pas surmontable. 

Mais, en réalité, la dite proposition n’a pas été introduite — ainsi que nous 
le verrons — comme une définition, mais seulement comme une mesure de 
la probabilité. 

Or ce n’est pas une condition spéciale à la mesure de la probabilité que 
de supposer qu’on sait décider quand deux cas sont égaux au point de vue 
de la caractéristique que l’on veut mesurer; c’est là une condition générale 
de toute mesure. | 

Mesurer une certaine caractéristique des corps ou des événements signifie 
en effet les comparer à d’autres corps ou événements qui possèdent la même 
caractéristique à un certain degré choisi comme étalon, ce qui présuppose 
qu’on peut dire quand deux corps ou événements possèdent la dite carac- 
téristique à un degré égal ou, au contraire, inégal. 

Au lieu de parler de définition de la probabilité, nous parlerons par consé- 
quent de détermination a priori de la probabilité. 

Passer de la notion que deux corps, ou deux événements, ou en général 
deux cas, sont égaux, sous le rapport d’une certaine caractéristique, à la 
notion que l’un d’eux est un certain multiple de l’autre représente évidem- 
ment un progrès ; c'est là le progrès que réalise en général la mensuration, 
et en particulier la détermination a priori de la probabilité. 
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D'autre part, pour construire une théorie de certaines caractéristiques 
des corps ou événements, il n’est pas indispensable de connaître toutes leurs 
propriétés essentielles, telles qu’elles devraient être énoncées par une défi- 
nition ; il suflit de connaître certaines propriétés qui sont nécessaires pour 
construire la théorie. Il n’est donc pas surprenant que l’on ait pu construire 
toute la théorie du Calcul des probabilités sans donner de véritable défini- 
tion de la probabilité, mais en connaissant seulement le moyen de la mesurer. 
C’est Ià peut-être la caractéristique de toutes les branches des mathéma- 
tiques, et c’est dans ce sens que Bertrand Russell disait, dans son célèbre 
paradoxe, que la mathématique est la science dans laquelle on ne sait 
jamais de quoi l’on parle. Mais ce n’est pas là non plus une spécialité des 
mathématiques. Est-ce que l’on n’a pas construit l’électrotechnique sans 
savoir longtemps ce qu'était l’électricité? De même ce n’est que récemment 
que l’on a donné une définition satisfaisante d’un «organisme », ce qui n’a 
pas empêché les sciences biologiques de naître et de se développer. Bien 
plus, les hommes ont depuis longtemps fait la théorie des faits de leur vie 
et de leur mort, sans être toutefois à même de dire, même aujourd'hui, ce 
qu'est la vie et ce qu'est au fond la mort. 


% 
* * 


Voulant éviter le reproche de cercle vicieux fait à la dite définition de la 
probabilité mathématique, plusieurs mathématiciens ont proposé de fonder 
le Calcul des probabilités sur les théorèmes de la probabilité totale et de la 
probabilité composée, qu'habituellement on déduisait de la dite définition. 

Par ce procédé, on ne se soucie donc pas de définir, ni même de mesurer 
la probabilité : toute grandeur qui satisfait aux deux théorèmes susdits est 
considérée comme une probabilité, en admettant implicitement de la sorte 
qu'elle est mesurée. 

C'est un procédé légitime, mais qui ne présente aucun avantage sur 
celui qui se base sur la détermination a priori de la probabilité. Au contraire, 
on pourrait dire que c’est le dernier qui réalise un avantage à l'égard du 
premier en tant qu'il implique une hypothèse — l'hypothèse de savoir juger 
quand deux cas sont égaux — qui est plus générale que l’autre — l'hypothèse 
d’avoir mesuré les probabilités — qui est implicite dans le premier procédé. 

La proposition connue sous le nom de définition de la probabilité mathéma- 
tique et que nous avons appelée plus proprement détermination a priori de la 
probabilité a été introduite par Jacques Bernoulli. On peut donc dire qu’elle 
date du commencement même de la théorie de la probabilité. Jacques 
Bernoulli, en effet, peut bien être considéré comme le fondateur de cette 
théorie, tous les autres auteurs qui l'ont précédé, de Luca Pacioli à Huygens, 
n'ayant fait au fond que résoudre des problèmes particuliers. 
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Examinons donc de près la pensée de Jacques Bernoulli. 
Il donne d’abord le concept de la probabilité ! 


Probabilitas est gradus certitudinis et ab hac differt ut pars a toto (p. 211). 
Il dit ensuite comment on peut l’évaluer. 


Probabilitates aestimantur ex numero simul et pondere argumentorum, 
quae quoque modo probant vel indicant rem aliquam esse, fore aut fuisse. 
Per pondus autem intelligo vim probandi (p. 214). 


Mais comment mesurer le poids ou la force probatoire des arguments ? 
Après avoir donné des exemples pratiques, Bernoulli conclut : 


Ex iis, quae hactenus dicta sunt, perspicuum est, vim probandi, qua pollet 
quodlibet argumentum, pendere a multitudinem casuum, quibus illud existere 
vel non existere, indicare vel non indicare, aut etiam contrarium rei indicare 
potest ; adeoque gradum certitudinis seu probabilitatem, quam generat hoc 
argumentum, ex casibus istis per doctrinam primae partis non aliter elici 
posse quam sortes aleatorum in ludis aleae investigari solent. Ad quod osten- 
dendum sumamus numerum casuum, quibus contingere potest ut argumentum 
aliquod existat, esse b ; eorum, quibus fieri potest ut non existat, c ; amborum 
a — b + c; item numerum casuum, quibus contingere potest ut indicet, B; 
ut non indicet, aut contrarium rei indicet, y; amborum a = ff + y. Pono 
autem, omnes casus aeque possibiles esse, seu pari facilitate evenire posse ; 
alias enim moderatio est adhibenda, et pro quovis casu faciliori tot alii casus 
numerandi sunt, quoties is caeteris facilius evenit: ex. gr. pro casu triplo 
faciliori numero tres casus, qui pari cum caeteris facilitate contingere possint 
(pp. 218-219). 


Le but de Bernoulli est évidemment de ramener la mesure de la proba- 
bilité des phénomènes de la vie à la mesure de la probabilité des phénomènes 
— beaucoup plus simples — des jeux de hasard, dont il avait traité dans la 
première partie de son ouvrage, à laquelle il se rapporte. 

Dans ce but, il ne prétend pas déterminer directement la probabilité 
d’un phénomène, mais seulement la probabilité qu'on doit attribuer à sa 
manifestation en considération d’un certain argument et même cette dernière 
probabilité est obtenue en considérant séparément la probabilité qui provient 
du nombre des cas dans lesquels l'argument s’applique ou ne s'applique pas, et 
la probabilité qui provient du fait que, lorsque l'argument s’applique, il suggère 
la réalisation du phénomène dans un nombre plus ou moins grand de cas. 

La façon dont ces deux probabilités concourent à déterminer la probabilité 
du phénomène qui provient de l’argument considéré et la façon dont se 
combinent les probabilités à attribuer au même phénomène en considération 


? Les citations suivantes sont faites d’après l’édition latine, qui est d’ailleurs la seule 
complète, publiée à Bâle en 1713 par son neveu Nicolas. Jacobi BERNOULLI, Profess. 
Basil. & utriusque Societ. Reg. Scientiar. Gall. & Pruss. Sodal. Mathematici celeberrimi, 
Ars conjectandi, opus posthumum. Accedit tractatus De Seriebus Infinitis, et Epistola Gallice 
scripla De Ludo Pilae Reticularis. Basileae, Impensis Thurnisiorum, Fratrum 1713. 
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d'arguments différents sont ensuite traitées par Bernoulli avec bien de la 
subtilité, mais avec des solutions qui, en partie, prêtent à la critique et ont 
été en effet critiquéest, 

C’est là une recherche du plus grand intérêt, qui mériterait bien d'être 
reprise et développée, mais qui ne concerne pas directement le sujet dont 
nous nous occupons ici. 

-Ce qui nous intéressait ici, c'était de faire ressortir que Bernoulli a été 
le premier à employer le rapport des cas favorables à tous les cas équipos- 
sibles pour déterminer la probabilité des phénomènes en général, en dehors 
du domaine des jeux de hasard, et que, d'autre part, il entendait donner 
par ce résultat la mesure et non pas le concept de la probabilité, qui est 
toujours définie comme un degré de la certitude, 

Cela est confirmé aussi par ce qu'il dit au chapitre suivant : 

Eo itaque deventum est, ut ad conjecturas de re qualibet rite formandas 
aliud nil requiratur, quam ut tum numeri horum casuum accurate deter- 
minentur, tum et definiatur, quanto facilius alii aliis accidere possint, At hic 
tandem nobis aqua haerere videtur, cum vix in paucissimis praestare hoc 
liceat, nec alibi fere succedat quam in aleae ludis, quos primi inventores ad 
aequitatem ipsis conciliandam data opera sic instituerunt, ut certi notique 
essent numeri Casuum, ad quos sequi debet lucrum aut damnum, et ut casus 
hi omnes pari facilitate obtingere possent. In caeteris enim plerisque vel a 


naturae operatione vel ab hominum arbitrio pendentibus effectis id neutiquam 
locum habet (p. 223). 


Et, après avoir illustré ces aflirmations par des exemples, il poursuit : 


Verum enimvero alia hic nobis via suppetit, qua quaesitum obtineamus ; 
et quod a priori elicere non datur, saltem a posteriori, hoc est, ex eventu in 
similibus exemplis multoties observato eruere licebit ; quandiquidem praesumi 
debet, tot casibus unum quodque posthac contingere et non contingere posse, 
quoties id antehac in simili rerum statum contingisse et non contingisse fuerit 
deprehensum (p. 224). 


Il est donc évident que Bernoulli envisage deux procédés pour déterminer 
la probabilité : l’un a priori basé sur le rapport des cas favorables au phéno- 
mène aux cas équipossibles ; l’autre a posteriori représenté par la fréquence 
du phénomène dans les observations déjà faites. 

Le fait pourtant de présenter le rapport entre les cas dans lesquels le 
phénomène s'est produit et les cas dans lesquels il ne s’est pas produit comme 
correspondant au rapport entre les cas favorables et les cas contraires à sa 
manifestation, devait faire regarder la deuxième mesure comme une approxi- 
mation de la première à laquelle par conséquent les auteurs postérieurs 
ont limité la détermination de la probabilité. 


1 Voir J. H. LAMBERT, Organon, t. II : Phaenomel. $ 239 et P. PrÉvosT et S. A. LHUILIER, 
Mémoire sur l'application du Calcul des probabilités à la valeur du témoignage, Mémoires 
de l'Académie royale des Sciences el Belles-Lettres 1797. Berlin 1800, Classe de philosophie 


spéculative, pp. 121-124. 
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D'autre part, puisque, d’après Bernoulli lui-même, le premier procédé 
ne pouvait s'appliquer pratiquement qu’aux jeux de hasard, on. comprend 
que l’on ait arrêté son attention sur le schéma particulièrement simple de 
ces jeux, dans lesquels un seul argument intervient, sans suivre Bernoulli 
dans la considération de la combinaison de plusieurs arguments de même 
ou de différente nature. 

Tout en simplifiant de la sorte l'encadrement de la question donné par 
Bernoulli, quelques auteurs ont pourtant gardé sa distinction entre défi- 
nition et mesure de la probabilité. 

C'est le cas de Poisson qui, à la page 30 de son ouvrage bien connu !, 
définit «la probabilité d’un événement » comme «la raison que nous avons 
de croire qu'il aura ou qu’il a eu lieu», tandis qu’à la page suivante il définit 
«la mesure de la probabilité d’un événement » comme « le rapport du nombre 
des cas favorables à cet événement au nombre total des cas favorables ou 
contraires et tous également possibles ». 

Mais chez Laplace — sans comparaison plus grand comme analyste que 
comme philosophe — les deux notions ne sont plus clairement distinguées. 

«Le rapport de ce nombre (des cas favorables à l'événement dont on 
cherche la probabilité) à celui de tous les cas possibles est la mesure», dit-il, 
« de cette probabilité, qui n’est ainsi qu’une fraction dont le numérateur est 
le nombre des cas favorables, et dont le dénominateur est le nombre de tous 
les cas possibles 2, » 

Et, quelques pages après : 

«Le premier de ces principes» (c’est-à-dire des principes de la théorie de 
la probabilité) c’est « la définition même de la probabilité » qui est «le rap- 
port du nombre des cas favorables à celui de tous les cas possibles 3». 

En suivant Laplace, il est devenu habituel, de la part des mathématiciens, 
de considérer ce rapport comme la définition de la probabilité, qui de la sorte a 
été souvent appelée probabilité mathématique, sans que l’on se soit rendu compte 
pendant longtemps du cercle vicieux impliqué par une telle définition. 

EMI 

Dans le classement de ceux qui se sont occupés du caleul des probabilités 
en «objectivistes » et «subjectivistes », Bernoulli se place nettement parmi 
les subjectivistes. C’est de lui en effet que s'inspire Keynes, qui dans ces der- 


1 Recherches sur la probabilité des jugements en matière criminelle et en matière civile 
précédées des règles générales du calcul des probabilités par S. D. Poisson. Paris: Bachelier 
1837. 

? Théorie analytique des probabilités par M. le comte LApLAce. Seconde édition revue 
et augmentée par l’auteur. Paris : Courcier 1814: /ntroduction, p. IV. * 
5 Jbidem, p. NIL < 
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nières années a fait revivre cette conception. En lisant certains passages du 
traité de Keynes ! on peut croire relire Bernoulli. 

Si d’autres subjectivistes pensent avoir pris une position foncièrement 
nouvelle, c’est probablement parce qu'ils n’ont pas une connaissance directe 
de l’Ars Conjectandi, livre dont — ainsi que je l'ai dit autrefois — tout le 
monde parle, mais que très peu de personnes ont lu. Loin de faire faire à la 
théorie de la probabilité un pas en avant, ils lui ont fait faire, en réalité, 
un pas en arrière, Car, si la conception subjectiviste, qui était à la base de 
la construction bernoullienne a été généralement abandonnée pour la 
conception objectiviste, cela n'avait pas été sans raison. 


Il est certain en effet que le degré de certitude d’un événement — ainsi 
que Bernoulli l'appelle — ou la raison de croire qu’il aura ou qu'il a eu lieu 


— ainsi que s'exprime Poisson — peut être influencé par la limitation de 
nos Connaissances ou par des erreurs d'estimation ou enfin par des tendances 
personnelles. Il est bien connu qu’en général on s'attend à voir se produire 
les événements que l’on désire. « Espérer » et «attendre » s'expriment en 
quelques langues par le même mot. 

Mais, si nous dépouillons nos espoirs de ces erreurs et de ces tendances 
ou limitations personnelles, quelque chose reste qui est l'aptitude objective 
de l’événement à se produire ou à ne pas se produire. Il est bon de lui donner 
une dénomination spéciale. Certains auteurs, tels que Poisson, ayant adopté 
pour le mot «probabilité» la définition subjective donnée par Bernoulli, 
ont voulu lui réserver, lorsqu'il était nécessaire de distinguer les deux 
concepts, le mot de «chance ». 


Dans le langage ordinaire — écrit Poisson — les mots chance et probabilité 
sont à peu près synonymes. Le plus souvent nous emploierons indifféremment 
lun et l’autre ; mais lorsqu'il sera nécessaire de mettre une différence entre 
leurs acceptions, on rapportera, dans cet ouvrage, le mot chance aux événements 
en eux-mêmes et indépendamment de la connaissance que nous en avons, 
et l’on conservera au mot probabilité sa définition précédente. Ainsi, un événe- 
ment aura, par sa nature, une chance plus ou moins grande, connue ou incon- 
nue ; et sa probabilité sera relative à nos connaissances, en ce qui le concerne 


(p.31). 


Mais lorsque, ayant mesuré la probabilité des événements élémentaires 
au moyen du rapport des cas favorables aux cas possibles, on passe au calcul 
de la probabilité des événements complexes en se basant sur le principe de la 
probabilité totale et sur le principe de la probabilité composée, on se réfère 
évidemment à la conception objective de la probabilité. Il n'est pas dit, 
en effet, que ces dits principes doivent nécessairement valoir pour nos espoirs 
subjectifs ou, tout au moins, il faudrait le démontrer. Et la démonstration 


1 À Trealise on Probability by John Maynard KEyxEes. London : Macmillan 1921. 
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ne devrait pas être la conclusion des raisonnements déductifs des mathé- 
maticiens, mais d’une expérience inductive des psychologues. 

Dans notre cas, il me paraît bien que le deuxième principe n'est pas 
valable. Prenons l'exemple que Poisson lui-même donne pour mettre en 
lumière la différence entre les deux concepts : 


Par exemple, au jeu de croix et pile, la chance de l’arrivée de croix et celle 
de l’arrivée de pile, résultent de la constitution de la pièce que l’on projette ; 
on peut regarder comme physiquement impossible que l’une de ces chances 
soit égale à l’autre ; cependant, si la constitution du projectile nous est inconnue 
et si nous ne l’avons pas déjà soumis à des épreuves, la probabilité de l’arrivée 
de croix est, pour nous, absolument la même que celle de l’arrivée de pile: 
nous n’avons, en effet, aucune raison de croire plutôt à l’un qu’à l’autre de ces 
deux événements. Il n’en est plus de même, quand la pièce a été projetée 
plusieurs fois: la chance propre à chaque face ne change pas pendant les 
épreuves ; mais, pour quelqu'un qui en connaît le résultat, la probabilité de 
l’arrivée future de croix ou de pile, varie avec les nombres de fois que ces deux 
faces se sont déjà présentées (p. 31). 


Or, il paraît évident, que le principe de la probabilité composée n’est pas 
applicable aux probabilités subjectives ainsi conçues. Il est partant naturel 
que, dans la pratique, la grande majorité des auteurs ait préféré s’en tenir 
au concept objectif de probabilité. 


* 
* * 


Nos croyances que certains événements se produiront dépouillés de tout 
ce qu’ils ont d’erroné et de subjectif, nous fournissent le critérium le plus 
plausible, c’est-à-dire le plus avantageux, pour diriger nos actions: c’est 
bien là le but de la détermination de la probabilité, indiqué d’ailleurs par 


l’étymologie même du mot (probable — plausible) que Bernoulli établissait 
de la façon la plus claire : 


Ars Conjectandi sive Stochastice nobis definitur ars metiendi quam fieri 
potest exactissime probabilitatis rerum, eo fine, ut in judiciis et actionibus 
nostris semper eligere vel sequi possimus id, quod melius, satius, tutius aut 
consultius fuerit deprehensum; in quo solo omnis Philosophi sapientia et Politici 
prudentia versatur (p. 213). 


Or, si nous regardons comme plus avantageux le critérium qui rend nulle 
la somme des erreurs et minime la somme des carrés des erreurs, la proba- 
bilité des événements correspond à leur fréquence moyenne (ou relative) 
dans le total des cas dans lesquels ils pourraient se produire. 

Ce n’est pas la fréquence moyenne dans les cas observés qui fait l’objet 
de la détermination approchée a posteriori de la probabilité. Ce n’est pas non 
plus la fréquence limite dans un nombre infini d'observations ; en effet, ce 
qui nous intéresse dans la pratique ce sont toujours des collections finies 
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d'observations et non des collections infinies de cas dont on ne pourrait 
Jamais voir la fin. Nous avons distingué la fréquence ainsi conçue par la 
dénomination de «fréquence totalitaire ».1 


* 
* * 


Ici une objection survient : c’est l’objection par laquelle les subjectivistes 
modernes pensent justifier leur point de vue: Vous parlez —— disent-ils 
de la probabilité d'un événement dans une collection de cas, mais, dans la 
réalité, ce n’est là qu’une exception. Dans la statistique, dans les sciences 
actuarielles, dans le calcul combinatoire, il arrive en effet qu'on détermine 
la probabilité des événements pour des collectifs ?, mais dans la vie pratique 
c'est toujours pour des cas individuels que les probabilités sont déterminées : 
probabilité que le nouveau-né qu’on attend soit du sexe masculin ou féminin ; 
probabilité qu'une certaine personne meure ou ne meure pas dans l’année ; 
probabilité qu'aujourd'hui il pleuve ou qu’il fasse beau temps; probabilité 
que dans son expédition en Bretagne César soit débarqué à un endroit plutôt 
qu'à un autre. 

Or, il y a ici un malentendu qu'il est indispensable d'éliminer. 

La probabilité s'applique, il est vrai, très souvent à des cas individuels ; 
mais elle est toujours déterminée pour des ensembles de cas. Je l'ai fait 
ressortir dès 1908 dans un article dont je me permets de reproduire le passage 
essentiel ÿ : 


Insistiamo sull’affermazione che la probabilità viene sempre considerata 
in relazione a una classe concreta di fenomeni, e cerchiamo di chiarirla. Mo- 
striamo, anzitutto, con un esempio, che la probabilità non si riferisce mai a 
un fatto singolo. 

Un marito è in procinto di avere un figlio, che ardentemente desidera di 
sesso maschile. Egli si domanda la probabilità che il suo desiderio resti appa- 
gato. In Italia — egli pensa — per 1000 nascite, si hanno 515 maschi; la 
probabilità che mia moglie metta alla luce un maschio, poichè lei ed io siamo 
italiani, è dunque 0,515. Ma, in città la proporzione dei maschi è alquanto 
inferiore (512 /,) e, poichè lei ed io siamo nati da cittadini e allevati in città, 
la probabilità sarà di circa 0,512. Ma il figlio, che aspetto, è il primogenito, 
e, fra i primogeniti, (il marito ha studiato a fondo, per l’occasione, la questione 


1 Voir, pour cette dénomination, l’article Alle basi del metodo stalistico. Il principio 
della compensazione degli errori accidentali e la legge dei grandi numeri, dans Metron, 
vol XIV, N. 2-3-4, 31-X11-1941, p. 58. A part la dénomination, le concept avait été exposé 
dès 1907 au Ile Congrès de la Société philosophique italienne (Parme). Voir la communi- 
cation Sul concetto di probabilità dans le volume Questioni filosofiche qui contient les Actes 
du dit congrès ainsi que l’article Che cos’è la probabilità ? en Rivista di Scienza (Scientia), 
vol. III, anno II, 1908, N. VI. Voir aussi les communications et articles de L. G. Du Pas- 
ourer, L. GALvANIr et G. PrerRaA, cités dans notre article dans Metron. 

: J1 y a des subjectivistes qui n'admettent même pas cette exception, soutenant que 
la probabilité se détermine toujours pour des cas individuels. 

3 Voir l’article cité à la note 1, Che cos'è la probabilità ? 
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dei sessi) si ha una percentuale di maschi più alta del 5 9/0 Circa ; la probabilità 
sarà dunque 0,517. Ma mia moglie appartiene ad una famiglia ricca di nascite 
femminili e, poichè la tendenza a produrre un sesso pare ereditaria, la pro- 
babilità che il nascituro sia un maschio diminuirà ; nè io posso attribuirmi in 
ci alcuna speciale influenza, perchè, tra noi fratelli, i maschi e le femmine 
sono in ugual numero. + 

Supponiamo che il marito si fermi qui, ed avrà con ciô proceduto molto 
più oltre che di solito non si faccia. Certamente la nascita del suo primogenito 
è un fatto che non si avvererà due volte e il sesso del nato è un carattere senza 
dubbio individuale, Ma egli ha determinato la probabilità non del sesso maschile 
del suo primogenito, ma del sesso maschile di un primogenito di coniugi 
italiani, nati e vissuti in città, dei quali uno appartiene a famiglia con distri- 
buzione normale dei sessi e l’altro a famiglia con forte eccedenza di femmine. 
La probabilità si riferisce dunque non ad un singolo fatto concreto, ma ad una 
intera classe di fenomeni. 

Il marito avrebbe potuto procedere oltre : tener conto dell’età sua e della 
moglie, se credeva nella teoria di Hofacker e Sadler ; tener conto del periodo 
trascorso tra il concepimento del nascituro e l’ultima mestruazione della 
madre, se credeva nella teoria di Thury ; tener conto del periodo più e meno 
lungo di astensione sessuale, che precedette tale concepimento, se credeva 
nella teoria di Düsing o di Gerot ; tener conto della qualità del nutrimento 
somministrato alla madre prima e durante la gestazione, se credeva nella 
teoria dello Schenk. La classe dei fenomeni concreti, da cui egli ricavava la 
probabilità, si sarebbe cosi andata via via restringendo, ma non si sarebbe 
ridotta mai ad un fenomeno concreto. Se una cosa è poco discutibile è questa : 
quando egli avesse potuto tener conto di tutte le circostanze in correlazione 
col sesso del nascituro, non avrebbe più parlato della probabilità che fosse 
maschio o femmina, ma della certezza che avesse l’uno o l’altro sesso. 


* 
* * 


Je remarquais aussi que, pour un ensemble de cas, il n’y a qu’une seule 
fréquence moyenne de l'événement et par conséquent une seule probabilité, 
mais que, d’autre part, chaque événement individuel, dont on désire déter- 
miner la probabilité, peut rentrer, d’après les connaissances des différentes 
personnes, dans des ensembles plus ou moins étendus, portant à des prévi- 
sions exposées à des erreurs plus ou moins importantes. 


La probabilità di un carattere — je concluais — per una determinata 
classe di fenomeni, ha dunque un valore oggettivo, ma resta soggettiva la 
delimitazione della classe considerata. 


La conception subjective et la conception objective de la probabilité 
trouvent dans cette proposition leur point d'équilibre 1, 


: Cette conclusion n’est pas en opposition avec celle formulée, plusieurs années après, 


par J. M. Keyxes: «The terms certain and probable describe the various degrees of 


rational belief about a proposition which different amounts of knowledge authorise us 
to entertain.… To this extent, therefore, probability may be called subjective. But in the 
sense important to logic, probability is not subjective. It is not, that is to say, subject 
to human caprice. A proposition is not probable because we think it so. When oncethe facts 
are given which determine our knowledge, what is probable or improbable in these cir- 
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Conçue comme la fréquence relative de l'événement dans le total des 
cas dans lesquels elle pourrait se produire (fréquence totalitaire), la proba- 
bilité peut être parfois déterminée directement et exactement ; c’est le cas 
quand il s'agit d’un événement qui appartient complètement au passé : 
la probabilité, par exemple, qu’en Europe, en 1947, un nouveau-né fût du 
sexe masculin ; la probabilité que, parmi les conscrits italiens de la classe 
1920, la taille fût comprise entre 160 et 161 centimètres ; la probabilité que 
pendant l’année dernière une certaine roulette du Casino de Montecarlo 
donnât pour résultat le rouge. 

Mais, dans la plupart des cas, les événements dont on veut déterminer 
la probabilité appartiennent complètement ou en partie à l'avenir. La déter- 
mination directe et exacte de la probabilité devient alors impossible et il 
faut recourir à une mesure approchée. La détermination a priori que l’on 
déduit du rapport entre les cas favorables et les cas équipossibles n'est 
généralement qu’une mesure approchée de la fréquence relative dans l’en- 
semble des cas qui nous intéressent. Si tous les cas étaient vraiment équi- 
possibles dans le sens qu'ils auraient, dans l’ensemble des cas considérés, 
exactement la même fréquence, alors la détermination a priori nous donnerait 
exactement la fréquence relative cherchée. Mais généralement nous pouvons 
juger de l’équipossibilité des cas seulement d’une façon approximative. 
Quand nous disons que ce soir dans la roulette du Casino le rouge et le 


cumstances has been fixed objectively, and is independent of our opinion. » {Trealise on 
Probability, ouvr. cit., pp. 3 e 4; voir aussi p. 18.) On pourrait même dire que la conclu- 
sion de Keynes revient à la nôtre lorsqu'on précise que les connaissances qui font état 
dans ce cas sont celles qui permettent de déterminer le collectif ou la classe des phéno- 
mènes auquel la probabilité est référée. Cette précision, pourtant, est de la plus grande 
importance, car on en déduit que les autres connaissances du sujet n’ont aucune influence 
sur la mesure de la probabilité. 

Notre conclusion d’ailleurs est en parfait accord avec celle sur laquelle s’est récemment 
arrêté M. Frécaer : « Nous touchons ici à une question qui a fait l’objet de beaucoup de 
discussions : la probabilité est-elle objective ou subjective? Le problème est diflicile et 
nous avons varié d'opinion à cet égard. Toutefois notre position actuelle est sans incertitude. 
Conformément aux explications précédentes, nous estimons que ce qui est subjectif, ce 
n’est pas la valeur de la probabilité, c’est le problème qu’on se pose à son sujet, c'est-à-dire 
le choix qu’on fait de la catégorie d'épreuves dans laquelle on calculera la probabilité 
de l'événement. Ce choix dépend d’abord de nos connaissances ; mais ces connaissances 
ne le déterminent pas. Le choix ne peut déborder nos connaissances, mais il peut ne pas 
les utiliser toutes ; un acte de volonté (basé sur certains raisonnements, conscients ou non) 
suit l'inventaire que nous faisons mentalement de nos connaissances et décide du choix 
de la catégorie d'épreuves. Jusque-là, la notion elle-même de probabilité n’est pas entrée 
en jeu. Quand elle entre en jeu, une fois choisis l'événement et la catégorie d'épreuves, 
elle est entièrement déterminée et sa valeur est indépendante de la personne qui a effectué 
ces choix. » (Exposé et discussion de quelques recherches récentes sur les fondements du calcul 


des probabilités, Paris: Hermann 1938, pp. 49-50.) 
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noir auront la même possibilité de sortir, nous donnons un jugement appro- 
ché, basé sur le fait que nous ne voyons aucune cause pour laquelle le rouge 
devrait sortir plus fréquemment que le noir. En réalité, de petites causes 
qui nous échappent existent, dont l'effet se manifeste dans une fréquence 
quelque peu différente des deux couleurs. C’est à cause de ces petites 
causes qui nous échappent que la détermination a priori de la probabilité 
est seulement approchée. 

Si, vis-à-vis de la détermination directe de la fréquence totalitaire, la 
détermination a priori a l'inconvénient d’être seulement approchée, elle a, 
d'autre part, l'avantage d’être applicable à plusieurs et souvent à un grand 
nombre d’ensembles. L'équipossibilité d’un «rouge » ou d’un «noir» à la 
roulette et la probabilité d’une combinaison quelconque de ces deux résultats 
déterminés a priori sur la base du rapport des cas favorables au cas équi- 
possibles sont applicables non seulement à la roulette du Casino pour ce 
soir, mais à toutes les roulettes du monde pour tous les temps. 


J'ai déjà remarqué que les collections des cas par rapport auxquels il 
est intéressant de régler notre conduite de la façon la plus avantageuse, et 
pour lesquels nous déterminons par conséquent la probabilité, sont des 
collectifs finis, si ample que puisse être leur extension ?. Le collectif le plus 
ample considéré dans l’ensemble précédent — celui des nouveau-nés de 
parents italiens actuels est pourtant un collectif fini, et, si nous considérions 
un collectif encore plus ample, tel que les nouveau-nés de la race blanche 
actuelle, le collectif serait encore fini ; et si nous l’étendions à toute l’espèce 
humaine vivante, le collectif deviendrait encore plus ample, mais il resterait 
néanmoins fini, et si nous considérions en plus tout le passé et tout l'avenir 
de notre espèce, pour étendu qu’on puisse le concevoir dans le temps, le 
collectif ne deviendrait pas infini. 

La probabilité d’un événement bien défini est donc donnée exactement 
par sa fréquence totalitaire relativement à un collectif déterminé comprenant 
un nombre fini de cas. Le rapport des cas favorables aux cas équipossibles 
d’un événement fournit au contraire généralement une mesure approchée 
de la probabilité, valable pour un nombre indéfini de collectifs, chacun 
comprenant pourtant toujours un nombre fini de cas1. 

C’est là une conception bien différente de celle que l’on rencontre souvent, 


? Voir, à ce sujet, les articles cités à la note 1, p. 43 : Che cos’è la probabilità ? p. 14 de 
l'extrait ; Alle basi del metodo statistico, pp: 57-58 et l’autre Intorno alle basi logiche e alla 
portata gnoseologica del metodo statistico, in Statistica, 1945-1946, pp. 10-11, dont une tra- 
duction en espagnol, due aux soins du Dr George STECHER, a paru dans les Actes de l’Institut 
des actuaires espagnols et une autre (considérablement augmentée) en portugais, due 
aux soins du Dr Valerio MorTARA, vient de paraître dans la Revue brésilienne de Statistique. 

2 Voir l’article Che cos’è la probabilità? pp. 10 et 14. 
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d’après laquelle le rapport des cas favorables aux cas équipossibles d’un 
événement correspond à la fréquence limite de l'événement. 

C’est une affirmation qui prend une signification très différente selon la 
signification donnée au mot «limite ». 

I y a des auteurs qui donnent au mot « limite » la signification de l’ana- 
lyse et affirment que c’est bien là la définition de la probabilité. Mais, à 
part le fait que cette conception porte à une contradiction qui ne paraît pas 
surmontable!, il est à remarquer que le concept de probabilité est un concept 
courant, tandis que celui de limite est un concept restreint aux initiés dans 
les mathématiques, et encore — ainsi que nous l'avons déjà dit — que la 
probabilité est déterminée toujours pour fournir une règle d'action — réelle 
ou hypothétique — par rapport à des collectifs finis et non à des collectifs 
dont on ne peut pas voir la fin. 

L'autre interprétation d’après laquelle le mot «limite» est entendu 
dans le sens du calcul des probabilités équivaut à la formulation du théorème 
de Bernoulli, qui dit que la fréquence d’un événement dans un certain nombre 
d'observations s'approche de sa probabilité avec une probabilité qui croît 
avec le dit nombre d’observations, de façon que l’on arrive toujours à un 
nombre assez grand pour obtenir une approximation aussi étroite que l’on 
désire. 

Or — peut-on observer — n’y a-t-il pas ici la démonstration qu’une chose 
est la fréquence et une autre la probabilité d’un phénomène ? 

La réponse à cette objection — à première vue frappante — nous conduit 
à reviser la portée réelle du théorème de Bernoulli. 

La démonstration du théorème de Bernoulli est rigoureuse une fois admis 
le principe de la probabilité composée. Mais les démonstrations que l'on 
donne de ce principe prêtent à la critique. 

Si la démonstration est donnée au moyen du calcul combinatoire, le 
principe concerne la fréquence des différentes combinaisons et ne peut être 
appliqué aux probabilités qu’en admettant l'identité de la fréquence avec 
la probabilité de chaque combinaison ?. 


1 Voir l’article Znlorno alle basi logiche, etc., cité à la note 1 de la page précédente, 
pp. 6-7. 

2 Prenons, par exemple, la démonstration donnée par le professeur CASTELNUOVO 
dans son traité bien connu : « Se l’evento E, si verifica in à, di n, casi possibili e similmente 
per E,, Es, … il numero totale dei casi possibili di cui si dovrà tener conto quando si esamini 
il concorso delle eventualità Æ,, E,, … sarà dato dal prodotto n, n, … perchè ciascuno dei 
casi possibili relativi ad ÆE, deve venire associato a ciascuno dei casi possibili relativi ad 
E,,... Per la stessa ragione, il prodotto a, &.…. darà il numero dei casi favorevoli al desiderato 
concorso di eventi. » (Calcolo delle probabilità, vol. I. Bologna: Zanichelli 1933, p. 18.) 
Dans cette démonstration, on déclare que l’on doit faire toutes les combinaisons entre 
les éléments possibles n, de E;, n, de E,, ete. et on attribue ensuite la même possibilité à 
toutes les combinaisons que l’on considère de la sorte avec la même fréquence. Analogues 
sont les démonstrations données dans les traités de BERTRAND, CZUBER, BENINI. 
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Si la démonstration est donnée en termes de probabilité, on ne peut 
pourtant pas se soustraire à considérer comme équipossibles les combinaisons 
ayant la même fréquence et, cette admission faite, le rapport des cas favo- 
rables aux cas favorables ou contraires (tous étant considérés également 
possibles) se réduit à la fréquence totalitaire *. 

Si nous voulons nous baser sur le calcul combinatoire, nous arrivons à 
l'énoncé suivant à la place du théorème de Bernoulli : 

Si nous considérons les n° dispositions avec répétition d’une série de n 
éléments pris s à s et calculons les n° différences entre la fréquence d’un 
certain élément dans chacune des n° dispositions et sa fréquence dans la série 
originaire (ou — ce qui revient au même — dans la masse totale des s n° élé- 
ments qui rentrent dans les n° dispositions), la fraction des n° différences qui 
restent au-dessous d’une certaine limite augmente avec s, de façon qu'il est 
toujours possible de choisir s si grand qu’une limite quelconque, si petite 
qu'elle soit, ne soit pas dépassée dans une fraction des n° différences qui s’ap- 
proche autant que l’on veut de l'unité. 

Si on entend par probabilité la fréquence totalitaire, on peut bien substi- 
tuer dans cet énoncé le mot « probabilité » aux expressions soulignées «fré- 
quence dans la série originaire ou dans la masse totale », «fraction des n° 


1 Voir la démonstration donnée dans le traité de L. BACHELIER qui ne fait pas mention 
expresse des combinaisons : « Soit en effet w le nombre des cas qui peuvent se présenter 
quand on attend l’événement E ; sur ces y cas, il y en a, par exemple, m favorables à 
l’arrivée de Æ, et, parmi ces m cas, n favorables à l’arrivée de E,, la probabilité de E 
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. est la probabilité de EÆE, et = est la probabilité qu’acquiert Æ, quand on suppose Æ, 


arrivé : le principe est donc démontré. » (Calcul des probabilités. Paris: Gauthier-Villars 
1912, pp. 2-3.) — Cette démonstration ne me paraît pas satisfaisante. En effet, si les n cas 
favorables à l'événement F, étaient seulement une partie des m cas favorables à l'événement 
E;, lorsque un des y — m cas contraires à E, se fût vérifié, l'événement E, serait également 
exclu. En indiquant avec E,, E, les événements contraires à ÆE, et respectivement E,, 
les probabilités des quatre concours E; Es, E1 Es E1 Ex E, E, seraient L, 227, #=Mm,G 
u Hu 
au lieu d’être, comme d’après le théorème de la probabilité composée, PE 


u 
— IN — RAR Fe AE = 
Ldarr P,P — indique la probabilité de l'événement E, quand E, est arrivé. Pour 


» 


où 


démontrer ie théorème de la probabilité composée, il faut admettre que lorsque l'événement 
E;, ayant une probabilité D s’est vérifié, il se combine avec la même fréquence avec tous 
les n cas favorables et avec les m — n cas contraires à E, et que, lorsque l'événement E;, 
ayant la probabilité Ê s’est vérifié, il se combine avec la même fréquence avec‘tous 


les p cas favorables et avec les y — m—p cas contraires à E,, c’est-à-dire que toutes les 
combinaisons équipossibles se présentent avec la même fréquence. 
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différences », on revient à la formulation courante du théorème de Bernoulli. 

Par conséquent, il serait non seulement inexact de dire que le théorème 
de Bernoulli démontre que la probabilité d’un événement n’est pas la même 
chose que sa fréquence; mais le théorème lui-même n’est rigoureusement 
démontré que lorsqu'on entend la probabilité d’un événement comme sa 
fréquence totalitaire et non pas comme rapport entre les cas favorables et 
tous les cas équipossibles 1. 


* 
* * 


! Ces observations paraîtront probablement originales sinon étranges à bien 
des lecteurs et moi aussi je les croyais originales lorsque je les ai écrites, mais ensuite, 
en lisant un Mémoire de PrÉvOsT et LHUILIER, j'ai constaté que ces auteurs, il y a un 
siècle et demi, avaient déjà fait ressortir que tout le calcul des probabilités est basé sur 
l'admission que les cas également possibles ont lieu le même nombre de fois. 

«La Stochastique entière — écrivaient ces auteurs repose sur cette hypothèse que 
je vais maintenant énoncer sous une forme plus générale: Hypothèse stochastique. 
Lorsqu’en vertu d’une certaine détermination des causes, plusieurs événemens nous 
paroissent également possibles, nous feignons que tous ces événemens ont lieu successi- 
vement tour à tour et sans répétition. » 

Et ils poursuivaient en précisant de la sorte leur pensée : « Quand j'établis cette hypo- 
thèse, comme celle sur laquelle on raisonne en Stochastique, je n’entends pas dire qu’on 
ne puisse lui en substituer quelqu’autre d’une forme différente. Mais j'entends que toute 
autre qu’on lui pourra légitimement substituer, sera équivalente à celle-ci quant au fond : 
c'est-à-dire, que tous les résultats de calcul qu’on pourra déduire légitimement de l’hypo- 
thèse substituée, pourraient également se déduire de celle-ci. » 

Ces auteurs, en ayant égard spécialement au jeu des dés, n’avaient pas négligé d’ailleurs 
de faire face à une objection saisissante. « En particulier, on s'assure bientôt qu’elle 
(cette hypothèse) n'offre rien d’incompatible avec une recherche, qui au premier coup 
d'œil semble l’exclure. Avec un dé donné, jouant un certain nombre de coups, quelle est la 
probabilité de ne point amener une face déterminée ? Cette question exclut manifestement 
la supposition que toutes les faces du dé donné paraîtront successivement tour-à-tour. 
Mais on ne peut la résoudre stochastiquement, qu’en faisant quelqu'opération équivalente 
à cette même supposition sur un dé différent du dé donné. » 

Is montraient aussi dans la suite que, dans la composition des probabilités, on avait 
recours précisément à une opération équivalant à la dite supposition. Ils ne manquaient 
même pas de préciser la portée du dit principe qui équivaut à définir les cas également 
possibles comme des cas qui se produisent tous un même nombre de fois : « On verra qu’il 
n'est que la définition précise de ce qu’on entend par ces mots si souvent employés, des 
cas également possibles. » 

Ils concluaient, enfin, par la sentence suivante qui mérite bien d’être répétée et rete- 
nue : « Quelque simple et manifeste que soit une hypothèse de calcul, il est très important 
de la mettre en vue. Si l’on néglige ce soin, il peut arriver qu’on la méconnoisse. Si celle 
que je viens de faire remarquer avait été toujours reconnue et suffisamment analysée dès 
l'origine, elle eût probablement jeté du jour sur la théorie qui en dépend, et prévenu 
quelques erreurs.» (P. Prévosr et S. A. LauiLiER, Mémoire sur l'art d'estimer la proba- 
bilité des causes par les effets. «Mémoires de l’Académie royale des Sciences et Belles-Lettres 
de Berlin» 1796. Cf. Classe de philosophie spéculative, pp. 4-7.) 

La lecture des classiques —— loin d’être, comme quelques-uns le pensent, superflue 
parce que leurs conclusions, pour importantes qu’elles fussent de leur temps, sont à présent 
dépassées — est souvent de la plus grande utilité. Etant près de la source des sciences 
qu'ils cultivaient, les classiques s’en sont, en effet, posé les problèmes fondamentaux sans 
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Bernoulli avait déjà remarqué — et nous en avons reproduit le passage — 
que la détermination a priori de la probabilité au moyen du rapport des cas 
favorables à tous les cas équipossibles peut être faite seulement dans un très 
petit nombre de cas, et presque exclusivement dans les jeux de hasard 
organisés expressément en vue de présenter des modalités équipossibles 
faciles à énumérer. 

Dans tous les autres cas, il faut recourir à une détermination a posteriort 
approchée, d’après le rapport du nombre de fois que l'événement s’est produit 
dans un nombre élevé d’observations faites dans des conditions semblables. 

Cette façon empirique de déterminer la probabilité n’est pas nouvelle 
_— poursuit Bernoulli — elle est recommandée par Locke et pratiquée 
chaque jour par tout le monde. Et même le plus stupide des hommes se 
rend compte que, dans ce but, il ne suffit pas de disposer d'observations 
isolées, mais qu’il en faut de nombreuses et que, plus leur nombre est élevé, 
moindre est la probabilité d’erreur (p. 225). 

Or Bernoulli se proposait de démontrer qu’en augmentant le nombre 
des observations la probabilité d’arriver au rapport exact du nombre des 
cas favorables à celui des cas favorables et contraires augmentait de façon 
à s'approcher autant qu’on le voudrait de la certitude, en donnant cette 
certitude morale qui, dans la vie ordinaire, est considérée comme équivalent 
à la certitude absolue. 

C’est là le problème auquel il avait dédié vingt ans d’études et dont il 
faisait ressortir toute l’importance 


Hoc igitur est illud Problema, quod evulgandum hoc loco proposui, post- 
quam jam per vicennium pressi, et cuius tum novitas, tum summa utilitas 
cum pari conjuncta difficultate omnibus reliquis hujus doctrinae capitibus 
pondus et pretium superaddere potest. Ejus autem solutionem priusquam 
tradam, paucis objectiones diluam, quas Viri quidam docti contra haec 
placita moverunt (p. 227). 


Mais ce n’est pas le théorème qu’il a en effet démontré. Bernoulli a en 
réalité démontré le théorème direct, d’après lequel, en supposant connue la 
probabilité (variable indépendante), on en tire des conséquences sur les 


être influencés par aucune tradition, et ils en ont donné des solutions que la postérité a 
souvent acceptées les yeux fermés, sans se rendre compte des hypothèses sur lesquelles 
elles se fondaient et que les classiques pourtant avaient dûment signalées. La lecture des 
classiques nous fait assister de la sorte à la construction du bâtiment scientifique, nous en 
révélant la charpente, que les superstructures architectoniques cachent aux regards de la 
foule. 

PrÉvosTr et LHUILIER, toutefois, n’ont pas fait le dernier pas, qui est de se rendre compte 
que, si l’on considère comme également possibles les cas qui se produisent le même nombre 
de fois, le rapport des cas favorables à tous les cas également possibles s’identifie avec la 
fréquence du phénomène dans tous les cas possibles (ce que nous appelons fréquence tota- 
litaire) et que par conséquent c’est seulement par ce point de départ que le calcul des pro- 
babilités devient rigoureux. 
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valeurs possibles de la fréquence dans un certain nombre d'observations 
(fonction), tandis qu’il voulait démontrer le théorème inverse, beaucoup 
plus important, d’après lequel en supposant observée une certaine fréquence 
dans un certain nombre d'observations (variable indépendante) on en tire 
des conclusions sur les valeurs possibles de la probabilité (fonction). 

Le contraste entre ce que Bernoulli voulait démontrer et ce qu’il a effecti- 
vement démontré est si clair que l’on a pensé que la démonstration du 
théorème inverse aurait dû suivre, et qu’elle n’a pas pu être donnée par 
Bernoulli, sa mort étant survenue 1. Mais, ainsi que je l’ai montré, la corres- 
pondance avec Leibniz exclut cette interprétation ?. 

En concluant, il faut reconnaître que la théorie de la probabilité naissait 
avec Bernoulli entachée de l’équivoque entre problèmes directs et problèmes 
inverses de la probabilité. C’est la même équivoque qui mine la solidité de 
toute la construction statistique anglo-saxonne moderne. C'est 1à — ai-je 
dit — le péché originel du Calcul des probabilités et cela explique qu'il soit 
si difficile à extirper #. 

La tentative de passer — sans hypothèses supplémentaires — du théo- 
rème direct au théorème inverse de Bernoulli a été en effet renouvelée 
maintes fois, mais c'est une entreprise désespérée. La cause en est que l’on 
confond, dans toutes ces tentatives, l’inversion analytique, qui est autorisée 
toutes les fois que la relation entre variable et fonction est monotone, avec l'in- 


version statistique, qui n’est autorisée que dans des hypothèses particulières #, 


*k 
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C’est à Laplace que revient le mérite d’avoir démontré que le théorème 
de Bernoulli est invertible dans l'hypothèse qu'a priori, c'est-à-dire avant 
d’avoir observé la fréquence de l'événement dans les n cas considérés, on 
pouvait admettre que toutes les valeurs que l’on pouvait attribuer à sa 
probabilité étaient également possibles. Dans cette hypothèse, l’inversion 
du théorème de Bernoulli est légitime. | 

Récemment, en développant un schéma que j'avais proposé depuis 
longtemps 5, j'ai démontré, en collaboration avec Livada, que l'on peut 


1 Par J. M. KEYNES, Treatise on Probability. Ouvr. cité, p. 369. 
2 Voir Gedanken zum Theorem von Bernoulli. Schweïizerische Zeitschrift für Volkswirt- 
schaft und Statistik, 82. Jahrgang, H. 5, 1946. 


3 Jbidem, p. 409. 
s Voir Ueber slatistische Beziehungen und deren Inversion, Schweizerische Zeitschrift 


für Volkswirtschaft und Statistik, 83. Jabhrg., H. 6, 1947. Edition anglaise sous le titre : 
Statistical Relations and their Inversion dans la Revue de l’Institut international de Statistique 
1948, résumée dans les Actes de la 25° réunion de l’Institut international de Statistique 
(Washington, septembre 1947). 

5 Voir Considerazioni sulle probabilità a posteriori e applicazioni al rapporto dei sessi nelle 
nascile umane, in Studi economici giuridici della Università di Cagliari, IIIe année 1911. Une 
nouvelle impression de cet article, depuis longtemps épuisé, est en cours dans le vol. XV 


de Metron. 
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passer de la fréquence dans un certain nombre d'observations à la probabilité 
d’un événement dans une hypothèse plus générale qui porte à une formule 
différente de celle de Bernoulli, formule qui se réduit à celle-ci dans un cas 
particulier, C’est ce que j'ai appelé la superinversion du théorème de Bernoulli?. 
Même dans le cas de l’équipossibilité des probabilités a priori, l'inversion 
du théorème de Bernoulli, n’est qu'approximative. Cela est prouvé par le fait 
suivant : si p est la probabilité donnée d’un événement, p est aussi sa fré- 
quence probable dans n observations, mais, si p est la fréquence observée 
dans n observations, la valeur probable de sa probabilité n’est pas p, mais 
pn +1 
n +2 


Dans l'hypothèse plus générale que j’ai envisagée, la valeur probable de la 


probabilité est Rae qui se réduit à la formule précédente dans le 
n+k+h 

Case particulier = 0e 

Le schéma laplacien de l’équipossibilité des probabilités a priori n’est 
applicable que dans des cas très exceptionnels. En général, on est fondé à 
penser qu’au contraire les probabilités a priori se groupent de préférence 
autour de certaines valeurs. Notre schéma correspond précisément à cette 
hypothèse. Quelquefois des expériences précédentes permettent de déterminer 
les paramètres k et h suffisant à établir le nombre des probabilités a priort 
et à permettre, par conséquent, l'application pratique du schéma. Les appli- 
cations que l’on en a faites à titre d’exemple montrent que la détermination 
de la probabilité a posteriori sur la base de l'hypothèse laplacienne de l’équi- 
possibilité des probabilités a priori peut porter très loin de la réalité 4. 


% 
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Dans tous ces cas, la détermination de la probabilité a posteriori se base 
sur les probabilités a priori qui sont envisagées comme rattachées aux causes 
de l'événement. On parle par conséquent de détermination de la probabilité 
a posteriori sur la base des probabilités a priori des causes. 

Mais, dans la pratique, ce n’est que bien rarement que l’on connaît toutes 
les causes de l’événement ainsi que la probabilité avec laquelle chacune 
d'elles intervient et en outre la probabilité avec laquelle chaque cause inter- 
venue détermine l’événement. 


1 C. Ginr et G. LivaDA, Sulla probabilità inversa nel caso di grandezze intensive ed in 
particolare sulla sua applicazione a collaudi per masse a mezzo di campioni, communication 
présentée à la VITe réunion de la Société italienne de Statistique (Rome, 27-30 juin 1943) 
et publiée dans les Actes de la dite réunion. 

2 Voir l’article cité à la note 4, p. 51. 

3 Voir l’article cité à la note 5, p. 51. 

4 Voir l’article cité à la note 1 ci-dessus. 
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On a par conséquent envisagé un autre schéma, se basant sur la pro- 
babilité avec laquelle l'événement se présente dans des groupes plus étendus 
que celui observé. Par exemple, ayant observé une famille et trouvé, parmi 
ses quatre enfants, trois garçons et une fille, on se demande la probabilité 
que le sexe du cinquième enfant soit masculin. Le problème se résout facile- 
ment si l’on connaît la probabilité des combinaisons des sexes dans les familles 
ayant cinq enfants, en admettant l'hypothèse que la probabilité d’avoir un 
sexe où l’autre ne varie pas dans les naissances subséquentes. Le schéma 
se base donc, non sur la probabilité a priori des causes, mais sur la probabilité 
a priort des résultats que l’on peut obtenir dans des groupes d'observations 
plus étendus. On parle par conséquent de la détermination de la probabilité 
a posteriori sur la base des probabilités a priori des résultats 1. 

C’est un schéma qui a reçu de nombreuses applications à la détermination 
du rapport des sexes dans les naissances. 


3% 
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Toutes les applications du Calcul des probabilités dont nous avons parlé : 
théorème direct de Bernoulli, inversion et superinversion du dit théorème, 
détermination de la probabilité «à posteriori sur la base des probabilités 
a priori des causes, détermination de la probabilité a posteriori sur la base 
des probabilités a priori des résultats, se basent sur certaines hypothèses 
dont on déduit des prévisions : on les appelle par conséquent applications 
déduclives du Calcul des probabilités ?. 

Les prévisions ainsi déduites peuvent être comparées aux faits et cette 
comparaison — éventuellement complétée par d’autres recherches — peut 
nous dire si les hypothèses dont partent les applications déductives sont ou 
non conformes à la réalité et peut, parfois, jeter de la lumière sur les causes 
de l'événement. 

La comparaison de la variabilité des rapports de fréquence, avec celle 
prévue d’après le théorème de Bernoulli, a donné lieu à la théorie de la dis- 
persion ; la comparaison de la fréquence effective des deux sexes dans les 


1 Voir l’article cité à la note 5, p. 51 et aussi, pour quelques développements, l'édition 
portugaise de l’article cité à la note 1, p. 46. 

2 Sur la distinction entre les applications inductives et les applications déductives 
du Calcul des probabilités, voir les articles Contribulo alle applicazioni statistiche del 
Calcolo della probabilità, Giornale degli Economisti, décembre 1907 et l'ouvrage Z{ sesso 
dal punto di vista statistico (Rome, Bibliothèque de Metron, 1908) particulièrement au 
chapitre IV: Misura delia regolarità dell'eccedenza dei maschi nelle nascite umane, $ 2 
Le applicazioni induttive del calcolo della probabilità. Pour des développements récents, voir 
le rapport Sur la théorie de la dispersion et sur la vérification des schémas théoriques, présenté 
à la Réunion d'études sur l'application du Calcul des probabilités (Genève, 12-15 juillet 1939) 
et publié en Metron, vol. XIV, n. 1; 15-VI-1940. 
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FONDEMENTS DU CALCUL 
DES PROBABILITÉS 


En 1925, dans mon Calcul des probabilités, j'ai longuement développé ce 
qu'on peut appeler la théorie rationaliste des fondements du calcul des pro- 
babilités. Elle était déjà classique et je ne prétendais pas avoir rien inventé, 
sinon dans des détails. Je suis heureux, à la demande de la direction de Dia- 
lectica, d’en donner ici un exposé très résumé. Bien entendu, le lecteur ne doit 
pas s'attendre à trouver une théorie originale. Il s’agit d’un nouvel exposé 
d’une vieille théorie. 

Je pourrais même dire qu’il s’agit d’un plaidoyer nouveau en faveur d’une 
vieille théorie. C’est qu’il existe une théorie concurrente, la théorie empirique, 
qui, renouvelée il y a un peu plus de vingt ans par M. R. von Mises, a de 
nombreux partisans, et une partie de l’exposé qui suit sera la critique de cette 
théorie. Malgré l’opinion de ces savants, j’oserai dire que vingt-cinq années 
de réflexion m'ont convaincu que la question des fondements du calcul des 
probabilités est résolue aussi bien qu’elle peut l’être par la théorie rationaliste, 
qui est vraie, et seule vraie. 

Une affirmation si nette choquera peut-être certains lecteurs. Je leur ferai 
remarquer que l’histoire de la science nous donne des exemples de problèmes 
définitivement résolus. Les mathématiciens ont cessé de discuter sur le postu- 
latum d’Euclide et la quadrature du cercle. L'espoir d’un succès analogue 
serait-il interdit aux philosophes ? Au moins pour la philosophie des sciences, 
je ne le pense pas. Je ne puis croire que les discussions des philosophes sur ces 
questions soient nécessairement sans fin, et que l'espoir d’une conclusion 
précise leur soit interdit. 


1. L’AXIOMATIQUE 


Précisons bien que l’axiomatique n’est que l'énoncé des axiomes. Nous 
parlerons ensuite de leur justification. 

Il y a quinze ans qu'un exposé de A. Kolmogoroff a donné à l'axiomatique 
du calcul des probabilités une forme qui semble définitive. Cette axiomatique 
repose naturellement toujours sur les deux principes classiques : premier 
principe ou principe des probabilités totales, qui est un principe d'addition ; 
second principe ou principe des probabilités composées, qui est un principe 
de multiplication. Dans ce bref exposé, nous pensons inutile de rappeler des 
principes si connus, et de préciser ce que l exposé de A. Kolmogoroff ajoute 
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aux anciens énoncés de ces principes; ce dernier point est d’ailleurs sans 
rapport avec la justification des axiomes, qui nous intéresse surtout ici. 

Rappelons que le contenu du premier principe est épuisé lorsqu'on a 
défini une loi de probabilité. Le second est plus fécond. Il permet d'étudier 
l'ensemble de plusieurs expériences. C’est surtout quand, en 1909, M. Emile 
Borel eut montré qu’on peut aussi étudier des suites infinies d'expériences, 
qu’un champ de recherches immense s’ouvrit aux mathématiciens. En fait, 
depuis cette époque, le développement de la théorie fut prodigieux. 

Nous n'avons pas à parler de ces résultats récents. Mais il nous faut 
rappeler l'énoncé du vieux théorème de Bernoulli. 

Le cas de Bernoulli est celui d’une suite de n expériences, indépendantes 
les unes des autres, donnant toutes à un événement À une même probabilité 
a. Il se trouve en fait réalisé avec une fréquence $. Le théorème de Bernoulli 
nous apprend que, si n est grand, la différence $-a est très probablement 
très petite: la probabilité que cette différence surpasse en valeur absolue 
un nombre donné tend vers zéro pour n infini, et cela quelque petit que soit 
ce nombre. 

Peu d’années après la publication du mémoire de Bernoulli, de Moivre 
démontra un important théorème qui précise l’ordre de grandeur auquel il 
faut s'attendre pour la différence $-a et la loi de répartition des écarts 
réduits. L'analyse moderne a, de bien des manières, à la fois précisé et 
généralisé ces premiers résultats. 


2. LES CONSÉQUENCES VÉRIFIABLES DE LA THÉORIE 
ET LA JUSTIFICATION DES AXIOMES 


Bien entendu, une théorie mathématique est toujours légitime. Il s’agit 
de savoir ce que nous voulons en faire pratiquement. Il semble que tout le 
monde soit d'accord sur au moins un point: nous voulons que l'événement 
dont la probabilité est très petite soit l'événement très peu probable au sens 
vulgaire de ce mot. Nous serons surpris s’il se produit (phénomène subjectif). 
Bien entendu, si l'expérience est très souvent répétée, nous ne serons pas 
surpris qu'il se produise de temps en temps. Mais les phénomènes très peu 
probables sont des phénomènes rares (circonstance objective). 

L'expression «très peu probable » (ou au contraire: «très probable ») 
ayant ainsi une signification pratique, le théorème de Bernoulli en prend 
une. Même si elle n’est pas très petite ou très voisine de l’unité, la probabilité 
de A dans une expérience est une valeur approchée de la fréquence qu’aura cet 


événement si l'expérience est répétée un grand nombre de fois dans les mêmes 
conditions. 
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Nous voyons ainsi la signification pratique de la théorie. Il s’agit main- 
tenant, dans chaque application, de voir si la théorie s s'applique. Il y a autant 
de problèmes que d'applications. La question n’est pas la même pour le 
tirage d’une loterie ou pour la contagion de la rougeole. Cette dernière ques- 
tion intéresse le statisticien et le médecin, Mais il nous semble que le mathé- 
maticien et le philosophe doivent surtout s'intéresser aux jeux de hasard, 
où nous voyons le concept de probabilité dans toute sa pureté. Ce n’est du 
moins qu'après avoir compris par cette application ce que c’est que la pro- 
babilité, qu'ils peuvent aborder l'étude des cas plus complexes, où la théorie 
ne permet en général pas d'arriver à une conclusion, et où elle a besoin du 
concours de l'expérience. 

Dans le cas simple des jeux de hasard il est possible, comme nous allons 
le voir, de définir la probabilité par l’étude d’une expérience unique, et d’être 
a priori sûr que l’axiomatique esquissée au n° 1 s'applique. Dans les cas plus 
complexes, l'étude de séries d'expériences est nécessaire pour arriver à recon- 
naître une analogie plus ou moins nette avec les schémas donnés par le calcul 
des probabilités. 


3. LA PROBABILITÉ SUBJECTIVE 


Subjectivement, deux événements sont pour moi également probables 
si je ne vois aucune raison de m'’attendre à l’un plutôt qu'à l’autre. Un autre 
observateur, ne disposant pas des mêmes renseignements, en jugera peut-être 
autrement. 

L'inégalité de deux probabilités se définit d’une manière analogue, et on 
peut arriver ainsi à définir des probabilités ayant des valeurs quelconques, 
rationnelles ou irrationnelles, entre zéro et un. Ainsi, dans le cas où il s’agit 
de choisir un point sur une circonférence, et qu'à deux arcs égaux corres- 
pondent des probabilités égales, la probabilité correspondant à chaque arc 
est proportionnelle à sa longueur, et peut être irrationnelle. 

Naturellement le premier principe de l’axiomatique, le principe d’addi- 
tion, s'applique à la probabilité subjective. C’est une manière de compter 
qui s'impose à nous. Ayant défini la probabilité de certains cas, c'est par 
addition que nous en déduisons la probabilité d'un groupe de plusieurs de 
ces cas. On voit de même aisément qu'il n’y a pas de difficulté pour le second 
principe. La théorie mathématique s'applique done. Mais il nous semble 
important de montrer qu’on peut, sans l’utiliser, indiquer a priort l'intérêt 
pratique de la probabilité subjective. On notera que cette explication peut 
être en grande partie comprise par un bon élève d'une classe de philosophie. 

Une carte tirée au sort, par exemple, a autant de chances d'être rouge 
que d'être noire. Qu'est-ce que cela signifie, puisqu'en aucun cas l'expérience 
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ne peut confirmer ou démentir cette opinion ? Sans doute. Mais répétons 
l'expérience. Nous nous attendons à ce que le hasard réalise tantôt un cas, 
tantôt l’autre. Nous ne nous attendons d’ailleurs pas à une égalité absolue 
du nombre de cartes rouges et du nombre de cartes noires. Le hasard a ses 
caprices et ne cherche pas à compenser par la suite l’avantage fortuitement 
accordé d’abord à l’un des cas. Finalement, ce que nous pouvons dire, c’est 
que l’écart entre la fréquence de chaque cas et sa probabilité ne doit pas être 
trop grand. Si par exemple, après cent expériences, nous avions trouvé 
quatre-vingt-cinq fois une carte rouge, ce nombre nous semblerait trop 
grand. Le plus simple bon sens nous conduirait à conclure que les conditions 
de l'expérience n'étaient pas celles que nous pensions. Il y aurait une 
cause, favorisant systématiquement le tirage d’une carte rouge, et nous cher- 
cherions à la découvrir. 

Ainsi la probabilité est l'attente d’une fréquence ; mais nous nous attendons 
seulement à ce que la fréquence attendue soit réalisée d’une manière approchée. 

Faisons un pas de plus. Tel écart qui nous paraît admissible après cent 
expériences pourra nous surprendre après une série plus prolongée d’expé- 
riences. Cela impliquerait qu’il se maintienne, au moins en moyenne, pendant 
beaucoup de séries de cent expériences. Il devrait y avoir à cela une cause 
systématique. Ainsi l’ordre de grandeur de l'écart auquel nous nous attendons 
est d’autant plus petit que la série d'expériences est plus prolongée. C’est 
précisément le théorème de Bernoulli, que nous retrouvons par la simple 
analyse d’une notion intuitive. Il nous semble que c’est en le retrouvant 
ainsi qu’on comprend le mieux ce que c’est que la probabilité. Naturellement, 
notre intuition ne va pas plus loin. L'analyse mathématique est nécessaire 
pour montrer l'ordre de grandeur de l’écart auquel on devrait réellement 
s'attendre à chaque instant. 

Tel est l'essentiel de la théorie. Répondons maintenant à deux objections. 

D'abord, pourra-t-on dire, n’est-il pas étrange de faire reposer la théorie 
sur une notion subjective ? Peut-être pourrait-on l’éviter. Mais la probabilité 
objective est quelque chose de compliqué. La probabilité subjective seule 
est susceptible de donner une schématisation de la probabilité qui est aussi 
utile au probabiliste que la considération des solides parfaits l’est aux 
géomètres. Elle donne d’abord l’idée de ce à quoi peut servir pratiquement 
la théorie mathématique déduite des deux axiomes fondamentaux. Il s’agit 
bien entendu, ensuite, de discuter objectivement l'application de la théorie 
à chaque cas particulier. 

Sur le caractère intuitif de la probabilité subjective, on peut discuter. 
C'est un fait psychologique, et je ne saurais m’étonner que ce qui est intuitif 
pour Joseph Bertrand, pour M. Emile Borel, moi-même, et beaucoup d’autres, 
ne le soit pas pour M. von Mises (je me demande d’ailleurs s’il ne serait pas 
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plus exact de dire de ce savant qu’il se méfie systématiquement de son 
intuition). Mais il me semble que tout le monde devrait admettre l'intérêt 
de la probabilité subjective considérée comme une schématisation de la 
probabilité. 

D'autre part M. Chapelon s'est étonné qu’on fasse reposer une théorie 
sur une notion purement négative : « On ne voit pas de raison de s'attendre... » 
Expliquons-nous à propos du battage d’un jeu de n cartes en supposant, 
pour simplifier, qu’il ne s'agisse que de choisir une carte, ce qui permet de 
considérer le jeu comme bien battu si n'importe laquelle des cartes a la 


probabilité : de se trouver à n'importe quelle place donnée. Si je dis qu'un 


jeu, subjectivement, me semble bien battu, cela veut évidemment dire que 
les gestes du joueur qui l’a battu ont déjoué les efforts que j'aurais pu faire, 
en l’observant, pour déduire de la position initiale d’une carte des rensei- 
gnements sur sa position finale. C’est négatif. Mais, s’il n’y avait que cela, 
je ne pourrais conclure qu’à mon ignorance. Si je dis que les n cartes ont la 
même probabilité de se trouver finalement à n'importe quelle place donnée, 
c'est que, dans un jeu en bon état, leurs formes sont identiques. Or ces formes 
seules interviennent; le joueur ne doit pas regarder les vignettes dessinées 
sur les cartes et ne peut pas les distinguer par le toucher (d'autant plus qu’il 
tient le jeu par sa tranche). Toute raison, même inconnue de nous, qui pour- 
rait rendre la présence du roi de cœur plus ou moins probable à telle ou telle 
place, s’appliquerait nécessairement à toutes les autres cartes, ce qui impli- 
querait contradiction. C’est donc que, si le battage est suffisant pour qu'on ne 
puisse rien déduire de l’ordre initial des cartes, toutes les cartes ont la même 
probabilité de se trouver à n'importe quelle place donnée. 

Ce raisonnement est analogue à celui qui, en géométrie, est basé sur la 
symétrie; sa valeur n’est pas contestable. Des raisonnements analogues 
s'appliquent aux autres jeux de hasard. En dehors des cas où ce genre de 
raisonnement s'applique, la détermination a priori de la probabilité ne semble 


guère possible. 
4, LA PROBABILITÉ OBJECTIVE 


Nous nous bornerons à l'exemple du battage des cartes. Evidemment, 
si les gestes du joueur qui a battu les cartes ont suffi à déjouer mon attention, 
cela ne veut pas dire que le jeu soit réellement bien battu. Pour savoir s'il 
l'est, une analyse plus délicate est nécessaire. Elle est aujourd'hui classique. 
Nous rappellerons le principe sur lequel elle repose. 

L'analyse exacte du geste élémentaire du joueur est impossible. Suivant 
des variations infimes et qui ne sauraient être conscientes, beaucoup de 
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résultats sont possibles, et leur nombre est si grand qu’on ne peut arriver, 
même expérimentalement, à déterminer leurs probabilités. Au cours des 
expériences, qui devraient durer des années, les habitudes du joueur change- 
raient. 

Ce que nous admettrons alors, comme point de départ de la théorie, c'est 
qu'après un nombre suffisant de gestes élémentaires, le résultat suivant sera 
atteint : quels que soient À et k (entiers ne dépassant pas n), la carte qui était 
à la hième blace peut venir à la kième, Quand nous disons qu’elle le peut, 
nous entendons par là que c’est un événement pratiquement possible; sa 
probabilité n’est pas négligeable. 

Il faut bien admettre comme point de départ cette notion d'événement 
pratiquement possible, et admettre qu’elle s'exprime par le fait que la pro- 
babilité, qu’on n’a même pas besoin de supposer exactement définie, est 
supérieure à un certain minimum positif. 

D'autre part l'indépendance des gestes successifs du joueur permet 
l'application du principe des probabilités composées, sous sa forme la plus 
simple. 

En partant de là, un calcul simple montre que, si le battage continue 
indéfinitivement, le jeu est de mieux en mieux battu. Il vient un moment 
où on peut, sans erreur sensible, le considérer comme bien battu. 

Naturellement, si l’on demande que toutes les permutations des n cartes 
soient devenues presque également probables, il faut un battage beaucoup 
plus prolongé, qui n’est pratiquement jamais réalisé. Mais pratiquement 
cela est sans importance pour les joueurs, pour deux raisons bien simples. 
D'une part le désordre initial résultant du coup précédent et du ramassage 
des cartes s'ajoute au battage insuffisant. D'autre part, en parlant par 
exemple du bridge, le nombre des jeux possibles dépasse dix milliards. 
C’est dire qu'on ne peut pas constater pratiquement la trop grande ou la 
trop faible fréquence de certains jeux possibles. C’est seulement si dans 


l'ensemble les dispositions trop probables étaient caractérisées par une! 


propriété simple dont la fréquence dépasserait la probabilité théorique 
qu'un joueur, qui serait aussi un probabiliste averti, pourrait, après avoir joué 
pendant des années, le remarquer. Pratiquement cela n’est guère à craindre 
(bien entendu, nous admettons que le battage ne soit pas par trop insuffisant). 

Pour d’autres jeux de hasard, la roulette notamment, il existe aussi des 
théories qui justifient la notion de probabilité d’une manière satisfaisante. 
Mais en dehors de ces cas, et de ceux de certaines théories physiques, si nous 
considérons par exemple les problèmes de biologie et de sociologie qui 
utilisent des statistiques, il n’arrive guère que l'étude théorique du cas isolé 
puisse être poussée assez loin pour que l'évaluation de la probabilité en 
résulte. C’est de l’étude des statistiques que l’on doit tirer des conclusions. 


RES” 


LA CONNAISSANCE: PROBABLE GI 


Il ne peut être question ici d’insister sur les problèmes, variables d’une 
application à l’autre, qui se posent dans ces conditions. Faisons seulement 
deux observations. 

L'une est que le seul examen des chiffres qui expriment le résultat d'une 
série d'expériences est presque toujours insuffisant. Il ne faut pas oublier 
la signification de ces chiffres. Ainsi il peut arriver qu’une suite de chiffres 
suggère l’idée d’une corrélation entre deux expériences consécutives. Suivant 
que cette circonstance paraît plausible ou non, avec une même suite de chiffres, 
ou bien on conclura à l'existence de cette corrélation ou bien on la rejettera 
ou du moins on réservera son jugement en attendant d’autres expériences. 
D'une manière générale, dans les cas de ce genre, le bon sens, qui ne se laisse 
pas enfermer dans une formule mathématique, joue un rôle essentiel. 

D'autre part, il peut être utile de rappeler l'importance du principe 
suivant: si une série d'expériences a attiré notre attention sur une cir- 
constance, et nous a conduit à une hypothèse que nous n'avions pas faite 
à l’avance, on risquerait de graves erreurs en utilisant cette même série 
d'expériences pour la vérification de cette hypothèse !, Il faut une nouvelle 
série d'expériences. 

Naturellement, on peut se demander si la première moitié des expériences 
déjà faites aurait suffi à nous suggérer cette hypothèse. Si oui, la deuxième 
moitié peut être utilisée pour la vérification. 


5. LES THÉORIES EMPIRISTES 


Le point de départ de ces théories est une idée au fond assez naturelle: 
« Il n'y a de science que de ce qui peut être contrôlé par l'expérience. Or la 
probabilité relative à une expérience unique ne permet aucune vérification. 
Elle ne doit donc pas nous intéresser. C’est une notion métaphysique; c'est 
une vue de l'esprit. » 

Alors les empiristes ne s'intéressent qu'aux suites d'expériences assez 
prolongées pour qu'ils puissent y reconnaître les marques du hasard. C’est 
la notion complexe d’une telle suite qu'ils considèrent comme la notion 
première. M. von Mises l'appelle un collectif ; M. Copeland, une suite admisstble. 

Ne parlons que du cas de Bernoulli. La première condition pour qu'une suite 
soit admissible est, pour tous les empiristes, celle donnée par le théorème 


1 La raison en est dans une remarque de M. Emile BorEL sur laquelle nous reviendrons 
tout à l'heure. Il y a beaucoup de circonstances qui peuvent attirer notre attention. La 
probabilité de chacune est faible; mais leur probabilité totale ne l'est pas. L'une d'elles, 
non désignée à l'avance, peut être réalisée fortuitement sans qu'il y ait aucune conclusion 


à en tirer. 
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de Bernoulli. Mais elle est manifestement insuffisante: une suite périodique 
vérifie cette condition; elle ne peut pourtant pas avoir été donnée par le 
hasard. Les empiristes modernes s’en sont bien aperçus, et c’est par tout un 
ensemble de conditions assez complexes qu'ils définissent les suites admis- 
sibles. Mais, quelle que soit leur ingéniosité dans l'établissement de ces 
conditions, il y a des difficultés qu’ils ne sauraient éviter. 

Discutons d’abord le point de départ de la théorie: il n’y a de science 
que de ce qui peut être contrôlé par l'expérience. 

«Sans doute, pourra répondre un physicien. Mais le vrai savant ne craint 
pas d’énoncer des hypothèses qui ne peuvent être vérifiées que par leurs 
conséquences indirectes. Si l’on dit que ce sont des vues de l'esprit, la planète 
Neptune fut d’abord une vue de l’esprit; les molécules et les atomes sont 
encore des vues de l'esprit. » 

On me permettra de rappeler la surprise que j'éprouvai quand, cela 
devait être en 1914, peu avant la guerre, j’entendis un mathématicien de 
grande classe me dire: « Les molécules, les atomes ne sont qu’un langage 
commode. On ne peut pas croire à leur réalité.» Aujourd’hui, de M. Louis 
de Broglie au plus humble étudiant, tout le monde y croit. On sait aussi 
que la décomposition du gaz en molécules, celle des molécules en atomes, la 
découverte de particules plus petites encore, furent des progrès de la science. 
Pourquoi douter que, si l’on considère un ensemble d’expériences et qu’on 
lui découvre certaines propriétés, ce soit aussi un progrès d’analyser cet 
ensemble, et de retrouver ces propriétés en puissance dans chaque expé- 
rience considérée individuellement ? 

Qu'on note bien que cet ensemble d’expériences n’est rien d’autre que la 
réunion des éléments qui le composent. Ainsi l’on dira qu’une armée est autre 
chose qu'une réunion de soldats ayant certaines qualités individuelles. 
L'organisation, le commandement, l'armement, sont essentiels. I1 n’y a rien 
de tel dans le cas qui nous occupe. Nous nous sommes placés dans le cas 
de Bernoulli, particulièrement simple. Il n’y a alors rien d'autre qu’une 
succession d'expériences, toutes effectuées dans les mêmes conditions, indé- 
pendantes les unes des autres. Si dans le résultat de ces expériences nous 
découvrons un caractère qui ne soit pas fortuit, qui nous paraisse nécessaire 
et prévisible, il faut bien qu'il existe en puissance dans l'expérience indivi- 
duelle. Il s’agit de l'y découvrir. L’empiriste s’y refuse. Aussi je ne peux voir 
dans l’empirisme que le refus d’un progrès que le rationalisme a réalisé 
sans effort. 

L'empiriste répondra que la notion de probabilité n’est pas claire pour lui. 
Qu'importe ? Elle est féconde. Le photon n’est pas non plus une notion claire. 
Pourquoi d’ailleurs l’empiriste ne ferait-il pas au moins une concession : 
reconnaître. qu'il y a dans chaque expérience considérée individuellement, 
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quelque chose qui justifie l'attente d’une fréquence ? On pourrait alors 
s'entendre. Il est après tout secondaire que la conception rationaliste de la 
probabilité subjective ne soit pas claire pour lui. 

Tout ce qu'on à pu reprocher par ailleurs aux empiristes n’est qu'une 
conséquence nécessaire du refus de parler de la probabilité relative à une 
expérience isolée. 

Ainsi j'ai fait observer depuis longtemps que l'empiriste ne peut pas 
espérer démontrer le théorème de Bernoulli, puisqu'il commence par admettre 
la propriété qu'il s’agit de démontrer. 

Quelle sera d’ailleurs son attitude en présence des nombreux théorèmes 
découverts depuis le début de ce siècle et qui précisent celui de Bernoulli ? 
Is définissent des propriétés très probablement vérifiées par une suite 
longtemps prolongée, ou presque sûrement vérifiées par une suite indéfini- 
ment prolongée. Si l'empiriste ne s'occupe pas d’une telle propriété, il 
considère comme admissible une suite qui en réalité ne peut pas avoir été 
fournie par le hasard. Mais pourquoi l'introduirait-il dans sa définition ? 


- I s’agit de propriétés cachées, que seule l’analyse mathématique basée sur 
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les axiomes de la théorie rationaliste a permis de découvrir. L’empiriste ne 
peut pas, comme pour le théorème de Bernoulli, dire que c’est intuitif. Quel 
hommage rendu aux axiomes rationalistes s’il adopte une telle propriété! 

Mais ce n’est pas encore le dernier souci de l’empiriste. Les propriétés 
qu'il lui faudrait admettre sont en nombre infini, et sont incompatibles. 
Cette incompatibilité, qui n’est pas gênante pour le rationaliste, met l'empi- 
riste dans une situation diflicile. 

Expliquons-nous. Considérons pour fixer les idées, et n'introduire que 
des nombres finis, quoique très grands, une suite de cent chiffres choisis au 
hasard. Le nombre des suites possibles dépasse tout ce que nous pouvons 
concevoir, et, si nous pensons à l’une d'elles, nous pouvons sans crainte 
parier que ce n’est pas celle-là que le hasard va réaliser. Nous savons pourtant 
que, si un nombre suffisant (en fait non concevable) de parieurs faisaient 
des paris analogues, il faudrait bien que l’un d’eux perde son pari. 

Cela est trop compréhensible pour embarrasser le rationaliste. Mais que 
va faire l’empiriste ? Ne devrait-il pas considérer toutes les suites possibles 
et dire de chacune qu'elle n’est pas admissible ? Il n’y aurait alors aucune 
suite admissible. 

En fait l’'empiriste se tire très bien de cette première difficulté. Il n'exclut 
aucune suite individuelle. C'est seulement s’il rencontre un caractère à la 
fois simple et peu probable qu'il exclura toutes les suites ayant ce caractère. 

Il n’a pas pour cela tout à fait échappé à la difficulté indiquée. Imaginons 
qu’il considère un caractère comme peu probable s’il n’est réalisé que par 
une suite sur cent mille, Mais, comme l’a remarqué M. Borel, il y a beau- 
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coup de caractères relativement simples, et, s’il s’en trouve dix mille qui 
soient peu probables, l’empiriste devra exclure une suite sur dix. C'est 
beaucoup trop. Il peut très bien arriver que le hasard réalise précisément 
une des suites ainsi exclues. 

Telles sont les difficultés où se débat l’empiriste. Sans doute le rationaliste 
a-t-il, lui aussi, des difficultés, lorsqu'il est aux prises avec des résultats 
expérimentaux. Mais il ne s’est jamais dissimulé ces difficultés; pour les 
résoudre, il emploiera tout son bon sens; il ne se limitera pas à l'application 
d’une formule toute faite. On est tenté d’être plus exigeant pour l’empiriste, 
dont la théorie repose sur la définition de la suite admissible, et de lu 
demander une définition précise. 

Mais tout cela n’est que peu de choses à côté de ce qui est pour nous le 
défaut fondamental de l’empirisme et que nous avons signalé d’abord: son 
refus de comprendre que c’est un progrès d’expliquer les propriétés d’un 
ensemble par celles de ses éléments, et que la théorie rationaliste réalise ce 
progres. 

Paul Lévy. 


DIE BEGRÜNDUNG DES GESETZES 
DER GROSSEN ZAHLEN UND DIE UMKEHRUNG 
DES THEOREMS VON BERNOULLI 


Der Begriff des «Gesetzes der grossen Zahlen » hat im Laufe der 
111 Jahre, die seit dem Erscheinen von Poissons Recherches! verflossen sind, 
bedeutende Wandlungen durchgemacht, und wenn in der Fachliteratur 
bis heute noch keine vollständige Einmütigkeit über seinen Inhalt herrscht, 
so geht die allsemeine Entwicklung doch zweifellos dahin, im Anschluss an 
Poissons Einleitung (aber in einem gewissen Gegensatz zum weiteren Text 
seines Werks) unter diesem «Gesetz» (oder, wie ich es vorziehen würde zu 
sagen, unter diesem «Prinzip ») die ganz generelle T'atsache zu verstehen, dass 
bei Einhaltung gewisser allgemeiner Bedingungen die meisten statistischen 
Messzahlen, die für eine Beobachtungsserie berechnet werden (relative 
Häufigkeiten, Durchschnitte, Momente usw.), im allgemeinen desto weniger 
von gewissen konstanten «Grenzwerten » abweichen werden, je grüsser der 
Umfang n der Serie genommen wird. So verstanden, ist das «Prinzip der 
grossen Zahlen » jedenfalls kein Theorem der reinen Mathematik, die ja an 
und für sich keine Môglichkeit bietet, allein aus ihrem theoretischen Inhalt 
heraus irgendwelche Aussagen über die konkrete Tatsachenwelt bloss durch 
tautologische Transformationen abzuleiten. Es wäre zum Beispiel undenkbar, 
nur aus den Lehrsätzen der Geometrie eine zwingende Schlussfolgerung 
darüber zu gewinnen, ob der tatsächliche Raum, in dem wir uns befinden, 
ein « Euklidischer», «Riemannscher» oder etwa ein «Lobatschewskischer » 
ist. Und vom Standpunkt der reinen Mathematik wäre es durchaus müglich, 
eine solche « Welt » zu postulieren (und für sie ein von inneren Widersprüchen 
freies System von Theoremen tautologisch aufzubauen), in welcher eine 
statistische Messzahl desto stärker von ihrem Grenzwert abweicht, je grôsser 
der Umfang n der Beobachtungsserie genommen wird, oder in welcher ein 
Ereignis desto häufiger eintritt, je kleiner seine Wahrscheinlichkeit ist. 
Wer weiss, ob man nicht eines Tages noch den Versuch machen wird, eine 
solche oder ähnliche Hypothese für gewisse Bereiche der Mikrophysik zuzu- 


1S, D, Poisson, Recherches sur la probabilité des jugements en matière criminelle et en 
matière civile, précédées des règles générales du calcul des probabilités. Paris 1837. 
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lassen ? Die Entwicklung der Physik im Laufe des letzten Vierteljahrhunderts 
hat manche noch erstaunlichere Dinge gebracht. 

Es bestehen zwei Môglichkeiten dafür, das Prinzip der grossen Zahlen 
logisch sauber zu begründen : entweder man nimmt gewisse Beobachtungen 
des täglichen Geschehens in die Zahl der Axiome und Definitionen der 
Wahrscheinlichkeitstheorie mit hinein und leitet dann dieses Prinzip aus 
ihnen durch tautologische Transformationen ab, oder aber man sagt sich 
in der Wahrscheinlichkeitstheorie von jeglicher Bezugnahme auf die Tat- 
sachenwelt von Anfang an los und überlässt diese jenen Disziplinen, die die 
betreffenden Lehren praktisch anzuwenden haben. Im ersteren Falle gehôrt 
die Wahrscheinlichkeitstheorie zum Gebiet der angewandten Mathematik, 
im letzteren bleibt sie als ein Teil der reinen Mathematik bestehen; es muss 
dann aber dafür gesorgt werden, dass die statistische Methodenlehre oder 
etwa die statistische Physik die Begründung des Prinzips der grossen Zahlen 
von sich aus übernehmen. 

Im Laufe der drei Jahrhunderte, die die Wahrscheinlichkeitstheorie als 
eine mathematische Wissenschaft schon besteht, sind sehr viele Versuche 
gemacht worden, durch eine entsprechend verklausulierte Definition des 
Begriffes der Wahrscheinlichkeit eine rein tautologische Ableitung jener 
Lehrsätze, die jetzt unter dem Namen « Prinzip der grossen Zahlen » bekannt 
sind, — so oder anders, mit oder ohne Zuhilfenahme des Theorems von 
Bayes — zu erzwingen. Und nur aus diesem Bestreben heraus kann der 
sonst für eine mathematische Wissenschaft doch recht ungewühnliche 
Zustand erklärt werden, dass es einerseits noch immer so viele und so grund- 
verschiedene Definitionen des Begriffs der Wahrscheinlichkeit gibt, dass 
aber andererseits der bei weitem grôsste Teil des rein mathematischen 
Inhalts der Wahrscheinlichkeitstheorie (von einigen ziemlich unbedeutenden 
Ausnahmen abgesehen) hiervon nur sehr wenig berührt wird. Dieses wäre 
offenbar nicht môglich, wenn jene Definitionen keine wesentlichen Elemente 
enthielten, die für den eigentlichen Aufbau der rein mathematischen Theorie 
überflüssig sind und hauptsächlich wohl nur mit Rücksicht auf die Begrün- 
dung des Prinzips der grossen Zahlen eingeführt werden. 

Den ohne Zweïfel mathematisch vollkommensten Versuch der geschil- 
._derten Art hat bekanntlich R. v. Mises! unternommen, der die gesamte 
Axiomatik der Wahrscheinlichkeïtstheorie sozusagen auf den Kopi stellt, 
indem er den Hauptinhalt des Prinzips der grossen Zahlen (insofern sich 
dieses auf relative Häufigkeiten bezieht) einfach in die Definition des Begriffs 
der Wahrscheïnlichkeïit mit einschliesst. Hieraus müsste übrigens gefolgert 


?R. v. Mises, Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistik und 
theoretischen Physik (Vorlesungen aus dem Gebiete der angewandten Mathematik, I. Bd:): 
Leipzig und Wien 1931. 
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werden, dass auch jene Konstruktionen und Modelle, bei denen die relativen 
Häufigkeiten mit zunehmendem n keiner festen Grenze zustreben, aus dem 
Gesichtsfeld der Theorie ausscheiden. Nur bleibt es nicht recht verständlich, 
wie es kommt, dass man sich Jahrhunderte lang über ein gewisses Ding 
gewundert, es umstritten und zu beweisen gesucht hat, wenn es sich schliess- 
lich doch nur als eine Selbstverständlichkeit erweist und als ein Azxiom 
oder eine Definition hingenommen werden kann. 

Den umgekehrten Weg, das heisst den Weg einer vollkommenen Los- 
lôsung der Wahrscheinlichkeitstheorie von einem unmittelbaren Zusammen- 
hang mit irgendwelchen konkreten Aussagen über die Tatsachenwelt, hat 
die neuere russisch-franzôsische Schule eingeschlagen. Als einer ihrer ersten 
Repräsentanten dürfte meines Wissens Professor S. N. Bernstein anzusehen 
sein, der seinerzeit auch E. Slutsky beeinflusst haben muss. Doch ausserhalb 
Russlands lernte man die Grundlegung der neuen Theorie hauptsächlich 
aus dem Werk von À. Kolmogoroff ? kennen. Aehnliche Ideen haben einige 
Franzosen, wie z. B. M. Fréchet ?, ferner J. Neymann, W. Feller, J. L. Doob 
u. a. vertreten. Auf demselben Standpunkt steht auch das ausgezeichnete 
neue Werk von H. Cramér ÿ. Den Ausgangspunkt der neuen Wahrscheinlich- 
keitstheorie bilden hier einige sehr allgemeine Axiome, die der Mengenlehre 
entlehnt sind #, 

Aus ihnen ergibt sich ein System von mathematisch eleganten verall- 
gemeinerten Sätzen grosser Tragweite, die jedem Einfluss des Spieltisches 
(des einstigen Geburstsortes der Wahrscheinlichkeïtstheorie!) bereits gänz- 
lich entrückt sind. Diese Sätze lassen ihrerseits verschiedene Adjustierungen 
und Begrenzungen zu, insofern man sie auf bestimmte Einzelbereiche, bzw. 
Forschungsobjekte anwenden will. So hat zum Beispiel schon Cramér, nach 
dessen Buch man zur Zeit wohl am besten die neue Axiomatik studieren 
kann, gewisse Vereinfachungen der Kolmogoroffschen Sätze zugelassen und 
noch weit durchgreifendere Vereinfachungen ergeben sich, wenn man die 


1A. Kozmocororr, Grundbegriffe der Wahrscheinlichkeïtsrechnung. Berlin 1933. 

i M. FRÉCHET, Leçons de statistique mathématique, Premier cahier, Paris, 1941. 
(Les cours de Sorbonne, centre de docum. universit., Fournier & Constans.) 

5H. CRAMÉR, Mathematical Methods of Statistics. Princeton 1946. 

4 Nach Cramér (S. 152-154) sind dies die folgenden drei: 

Axiom I. Im k-dimensionalen euklidischen Raum Ax entspricht jeder zufälligen 
Variablen £ eine Mengenfunktion P(S), die eindeutig für alle Borelschen Mengen S im 
Raum AÀx bestimmt ist. Diese Funktion P(S) wird als die Wahrscheinlichkeit dafür 
definiert, dass £ eine Untermenge von S ist. 

Axiom 11. Die Funktion P(S) ist eine nicht-negative und additive Mengenfunktion, 
so dass P(Rx) = 1. 


Axiom 111. Wenn &;, &; ... £n zufällige Variablen sind, so ist auch jede kombinierte 
Variable (£;, gs ... Ën) ebenfalls eine zufällige Variable. 
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mathematisch-statistische Methodik ausschliesslich auf das Bereich der 
sozialen Massenerscheinungen anwendet 1. 

Wird jedoch die Wahrscheinlichkeïtstheorie als ein Abschnitt der reinen 
Mathematik aufgebaut, so muss man auch dafür sorgen, dass von ihren 
Theoremen gewisse Uebergänge, gewisse Brücken zur realen Tatsachenwelt 
geschaffen werden. Im Bereiche der «stochastischen » (das heisst wahr- 
scheinlichkeits-theoretisch orientierten) statistischen Methodenlehre würde 
dies bedeuten, dass man den Nachweïs der Gültigkeit des Prinzips der grossen 
Zahlen neu erbringt. Cramér selbst gebraucht als solche «Brücke » einen 
Erfahrungssatz, der sich stark and die v. Mises’sche Konzeption anlehnt: 
« The concept of mathematical probability . :. has its empirical counterpart 
in certain directly observable frequency ratios: The proposition: «The 
probability of the event E in connection withe the random experiment € 
ist equal to P» has ... its counterpart in the statement denoted as the 
frequency interpretation of the probability P, which runs as follews: « In a 
long sequence of repetitions of €, it is practically certain that the frequency 
of E will be approximately equal to P». — Accordingly we must require 
that, whenever a theoretical deduction leads to a definite numerical value 
for the probability of a certain observable event, the truth of the corres- 
ponding frequeney interpretation shoud be borne out by our observations. »? 

Dass man mit Hilfe der « Häufigkeitsinterpretation » das Prinzip der 
grossen Zahlen sofort abzuleiten vermag, unterliest keinem Zweifel, aber 
es fragt sich immerhin, ob man in bezug auf die Feststellung konkreter 
Tatbestände nicht sparsamer sein, das heisst auch mit weniger auskommen 
kônnte: lange Serien von Experimenten sind schliesslich ja immer nur im 
Laufe einer gewissen Zeitspanne durchführbar und bei Zeitreihen, wie es 
zum Beispiel die tägliche Praxis des Sozialstatistikers lehrt, erscheint es 
durchaus nicht immer so selbstverständlich, dass ihre Werte bei zunehmen- 
dem n überhaupt einer konstanten Grenze zustreben. Interessant ist, dass 
Cramér selbst auf S. 333 in unmittelbarem Anschluss an die soeben zitierte 
Stelle wie folgt fortfährt: « Thus e. g. when the probability of an event is very 
small, we must require that in the ne run the event should occur at most in a 
very small percentage of all repetitions of the corresponding experiment. 
Consequently we must be able to regard it as pratically certain that, in one 
single performance of the experiment, the event will not occur. » Es kann 
nun nachgewiesen werden, dass der soeben gesperrte Satz für sich allein 
schon ausreicht, um das Prinzip der grossen Zahlen in der Hauptsache zu 


10. ANDERSON, Zum Problem der Wahrscheinlichkeit a posteriori in der Statistik. 
Schweizerische Zeitschrift für Volkswirtschaft und Statistik, 83. Jahrgang. — Nr. 6, 
Dezember 1947, S. 491 f. 


2 H. CRAMÉER, L. cit., S 332; ähnlich auch S. 142 und 148-9. 
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begründen, und zwar ist dies genau der Weg, den bereits A. Cournot!1 vor 
105 Jahren eingeschlagen hat. Dieselbe Idee wurde später von P. Mansion ? 
wieder aufgegriffen und durch das klassische Buch von A. A. Tschuprow ? 
im Bereiche der russisch sprechenden Welt im weitesten Mass popularisiert. 
In der franzôsischen statistischen Literatur wird derselbe Standpunkt unter 
anderem von M. Fréchet (1 cit., S. 77) vertreten und in der deutschen von 
mir 4, 

Der Cournot’sche Beweisgang besteht aus 2 Lemmen und der eigentlichen 
Schlussfolgerung. In ihrer modernisierten Form lauten die Lemmen wie folgt : 


1. Ereignisse, deren Wahrscheinlichkeiten sehr klein sind, treten sehr 
sellen auf. Dieses ist ein reiner Erfahrungssatz, dessen Richtigkeit wir im 
praktischen Leben häufig genug feststellen kônnen. Man denke etwa an die 
Ziehung einér mit einem besonderen Zeichen versehenen Kugel aus einer 
Urne, die sagen wir — 1000 oder 100 000 im übrigen gleicher Kugeln 
enthält. Auch für die neue, sich an die Mengenlehre anlehnende Definition 
der Wahrscheinlichkeit gilt dasselbe. 

2. Die Wahrscheinlichkeit einer bestimmten Abweichung der relativen 
Häufigkeit von der ihr entsprechenden Wakhrscheinlichkeit wird desto kleiner, 
je grôsser der Umfang n der Beobachtungsserie genommen wird. Dies ist ein 
rein mathematischer Satz, der im Laufe der Zeit verschiedene Formen 
angenommen hat, angefangen mit dem schlichten Beweisgang Bernoullis 
und abschliessend mit den eleganten Theoremen eines Laplace oder eines 
Tchebycheff — von den Verallgemeinerungen der heutigen Mathematiker 
schon gar nicht zu reden. 


Aus beiden Lemmen ergibt sich die Schlussfolgerung: Bei genügend 
grossem Umfang n der Beobachtungsserie wird die relative Häufigkeit nur 
sehr sellen um mehr als einen vorgegebenen beliebig kleinen Betrag von der 
hr entsprechenden Wakhrscheinlichkeit abweichen. 

Diese wäre — im Sinne Cournots — die Begründung des Prinzips der 
grossen Zahlen in bezug auf relative Häufigkeiten. Derselbe Beweisgang 
kann selbstverständlich auch auf den Fall der Abweichungen verschiedener 
anderer Messzahlen (Durchschnitte usw.) von den ihnen entsprechenden 
Grenz- oder Erwartungswerten angewandt werden. 

Wie die «Cournotsche Brücke » ausgewertet werden kann, soll jetzt 
am Beispiel des Bernoullischen Theorems und seiner « Umkehrung » gezeigt 


1 A. CourNorT, Exposition de la théorie des chances et des probabilités. Paris 1843. 

2 P, MANSIrON, Sur la portée objective du calcul des probabilités. Bull. de l’Acad. Royale 
de Belgique, classe des sciences, Bruxelles 1903. 

5 A, A. Tscnuprow, Abhandlungen zur theoretischen Statistik. St.-Petersburg 1909 


und 1910 (russisch). . È EL £ 4 
4 0. ANDERSON, Einführung in die mathematische Statistik. Wien : Julius Springer 1935. 
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werden. Diese « Umkehrung » braucht übrigens keine Inversion im streng 
mathematischen Sinne zu bedeuten, denn es handelt sich ja hier bereits 
um einen Ubergang von der reinen mathematischen Theorie zur konkreten 
Tatsachenwelt 1, 

Der Ausgangspunkt des berühmten Theorems von Bernoulli ist bekannt- 
lich der Newtonsche Binomialsatz : das Verteilungsgesetz der relativen Häufig- 


keiten — des Eintreffens eines gewissen Ereignisses, das eine konstante 
n 


Wahrscheinlichkeit p besitzt, bei n unabhängigen Versuchen, wird durch 
die Entwicklung des Binoms (p + q)* gegeben, wobei q = 1 — p. 
Wenn also die Reïhe 


(1) Po}, Pape : Pip, RENE Pn_1,, , Pay, 


: LATE 
die Wahrscheinlichkeïiten dafür darstellt, dass die relative Häufigkeït m die 
Werte °/,,1/,,?/, usw. bis ?/, annimmt, so ist 


(2) ° Pmy, = is pq" ue DEEE (m=—=0, 1,2, :.:n) 


die Wahrscheinlichkeit für das Auftreten der relativen Häufigkeit 7 Und 


wenn es einmal feststeht, dass die Wahrscheinlichkeit p während der Versuchs- 
serie konstant bleibt, so bestehen (1) und (2) zu recht, ganz unabhängig davon, 
ob der konkrete Wert von p dem Beobachter bekannt ist oder nicht. Zum Beweis 
dieses Theorems werden nur der Additions- und Multiplikationssatz der 
Wahrscheinlichkeitslehre sowie etwas Kombinatorik benôtigt ?. 

De Moivre und nach ihm Laplace leiteten aus (2) die Näherungsformel des 
Exponentialsatzes für das Bernoullische Theorem ab. Die Ableitung kann 
heutzutage selbstverständlich unter Zuhilfenahme von sehr verschiedenen 
mathematischen Mitteln durchgeführt werden. 

Als ihr Endergebnis erscheint aber immer die folgende Formel : 


(3) À DAMESLE 
m — re. 26 À 
/n oV2x 


1 Die jetzt folgende Darstellung lehnt sich zum Teil an die Gedankengänge meines 
schon zitierten Aufsatzes in der Schweiz. Zeitschrift für Volksw. und Statistik an. Ich 
muss aber darauf aufmerksam machen, dass die daselbst in Formel (25) aus S. 512 ange- 
deutete Integration doch bedenklich erscheint. Infolgedessen muss auch die kleine 
Tabelle auf S. 515 vorerst zurückgezogen werden. 

® Vgl. z. B. A. A. Markorr, Wahrscheinlichkeitsrechnung, 4. Auflage, Moskau 1924, 
S. 26 ff. (russisch). 
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Hier hat Pmy, dieselbe Bedeutung, wie in (2), æ und e sind die bekannten 
mathematischen Konstanten, und es wird ausserdem gesetzt : 


(4) ÿ=— Vnpq und 
(2) T=m— np. 


Da für m die Eingrenzung 0 = m = n besteht, so folgt ferner aus (5), dass 
jedenfalls 
(6) — np <= X << + nq 


sein muss. Was das Restglied À, in (3) anbetrifft, so stellt dieses ein recht 

kompliziertes Gebilde dar, dessen Grôssenordnung für solche x, die sich den 

beiden Grenzwerten von (6) nähern, ungefähr dieselbe ist wie diejenige von 
2 


200 
viel engeren Grenzen : 
(7) — k Vnpq £ x € + k Vnpa 


bewegt (wobei k, positiv und klein bleibt, so dass es, sagen wir, die Zahl 
5 nicht übersteigt), auch das Restglied RÀ,, nur aus Komponenten von der 


Doch kann immerhin nachgewiesen werden, dass solange sich x in den 


Grôssenordnung -;- und abwärts bestehen wird und dann folglich bei 
n 


V 


unbegrenzt zunehmendem n gegen Null gehen muss. Somit kônnen bei 
genügend grossem n wenigstens diejenigen Pn}, in der Reïhe (1), bei denen 
m sich nicht allzuweit von np entfernt, mit guter Annäherung durch die 
Formel (3) unter Weglassung des Restgliedes À;,, dargestellt werden. 
Fragt man nun nach der Totalwahrscheinlichkeit dafür, dass + sich in 
den Grenzen + {0 befinde, wobeï o« durch (4) gegeben ist, und #4 = k;,, so 
muss man, offenbar die Summe aller jener Pmy, in (1) bilden, für die (bei 
variablem m) die Beziehung 
(8) im — np| £ 40 


oder, was dasselbe ist, die Eingrenzung 
(8a) np—io=<m=np+éo 


besteht. Mit Rücksicht auf (3) erhält man hieraus den folgenden Ausdruck 
für die gesuchte Totalwahrscheinlichkeït : 


(9) P{im—np| = Lo} — Pinp—to=me=np + Lo) 
x=+t 0 
= D : est 
œ V2 
T=-10 
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und ferner, nach dem üblichen Uebergang zum bestimmten Integral, bei 
Annahme eines «genügend grossen n» und Transformation der Variablen 


T . , Fr s . 
u—- den wohlbekannten De Moivre-Laplace’schen Näherungsausdruck : 
O 


+ 
1 pe 
(10) Pinp—hoSm£np to) |e 2 du = ®(b). 
T 


if 
Aus der Eingrenzung — 40 = x = +{,0 ergibt sich übrigens mit Rücksicht 
auf (6) auch die folgende Eingrenzung für die gegenseitigen Beziehungen 
von {, n und p, ausserhalb welcher die Formel (10) ihre Gültigkeit verliert: 


(11) LE pe: 


Für relativ kleine n und p bedeuten diese Ungleichungen eine sehr beträcht- 
liche Einengung der zulässigen Spannweïite von £ bzw. ki. 

Sowohl (3) als auch (9) und (10) sind nur Theoreme über reine Wahr- 
scheinlichkeïiten und besagen noch nichts darüber, was in unserer Tatsachen- 
welt wirklich geschieht bzw. zu geschehen hat. Doch nach dem ersten Lemma 
von Cournot treten solche Ereignisse, deren Wahrscheinlichkeiten sehr 
klein sind, nur sehr selten auf, und jeder Mensch besitzt sein eigenes Mass, 
oder richtiger sein eigenes Gefühl dafür, welcher Grad der Seltenheit eines 
Ereignisses für ihn genügt, um mit dessen Eintreffen überhaupt nicht mehr 
zu rechnen. Andernfalls kônnte er weder richtig essen (Vergiftungsgefahr !) 
noch ausgehen oder reisen (Verkehrsunglücke !), noch überhaupt mit Men- 
schen umgehen (die vielen Ansteckungsmôglichkeïten !). Und würde er sich 
daraufhin in seinen 4 Wänden hermetisch einschliessen, so käme er sofort 
unter das Risiko eines verfrühten Todes wegen ungesunden Lebens. Selbst- 
verständlich kann und wird sich ein solches Seltenheits- oder Sicherheits- 
mass von Fall zu Fall ändern, und dies — je nach der Wichtigkeit, die das 
seltene Ereignis bei seinem Eintreffen haben kônnte. Doch wird andererseits 
jeder vernünftige Mensch (dem man etwa an Hand von Ziehungen aus 
geschlossenen Urnen oder sonstigen einfachen Beiïspielen erklärt, was die 
kleinen Wahrscheinlichkeiten 0.01, 0.001, 0.0001 usw. eigentlich bedeuten) 
mit Rücksicht auf seine persônlichen Erfahrungen angeben kônnen, welche 
(geringe) Erfolgschance er bei einem einmaligen Versuch als praktisch 
keine Chance ansehen würde. Es sei dies etwa die kleine Zahl & — 0.0001, 
die, wie man aus den Tabellen der Funktion ® ({) entnimmt, einem {, — 3,9 
und folglich der Wahrscheinlichkeit dafür entspricht, dass der absolute 
Betrag der Differenz m — np grôsser als 3,9 Vnpq, oder, was auf dasselbe 


TAN 
à 


WAHRSCHEINLICHKEITSTHEORIE UND WIRKLICHKEIT vo 


: Le FE m 
hinausläuft, dass der absolute Betrag der Differenz — — p grôsser als 
n 


Del /Dan à j ; 
3,9 le ist. Das Weitere stellt eine leichte Rechenaufgabe dar. Es sei z. B. 


p —q—0,5. Dann ergeben sich für die Differenz — — 0,5 die folgenden 
n 


absoluten Grenzen: 0.195 für n — 100; 0.0195 für n — 10 000: 0.00195 
für n — 1 000 000 usw. Kurz, je grôsser n genommen wird, in desto engeren 


: PR re 
Grenzen schwankt auch die relative Häufigkeit — um die ihr entsprechende 
n 


konstante Wahrscheinlichkeit p. Und hält man die Sicherheitsgrenze & — 0.001 
noch nicht für sicher genug, so steht nichts im Wege, ein noch beliebig 
kleineres € zu wählen, in der Tabelle der Function ® (4) den entsprechenden 
grôsseren Wert von /,, aufzusuchen und darauf ein für den Fall «genügend 
grosses n » Zu errechnen. Dasselbe Verfahren kann auch auf die Formel (3) 
angewandt werden, doch muss man dabei berücksichtigen, dass jede Serie 
von n « Versuchen » nur eine einzige relative Häufigkeit als empirische 
Annäherung an Pm, ergibt, so dass diese Serien noch entsprechend viele 
Male wiederholt werden müssten. 

Unbeschadet der grossen theoretischen Wichtigkeit, die das Theorem 
von Bernoulli ohne Zweifel besitzt, kommt es in der konkreten statistischen 
Forschung relativ selten vor, dass dieses Theorem als solches angewandt 
werden kann. Gewôbhnlich ist nämlich der Forscher überhaupt ausserstande, 
sich Kenntnis über den genauen Betrag der Grundwahrscheinlichkeit p zu 
verschaffen. Viel häufiger tritt der Fall ein (man denke nur an Repräsenta- 
tiverhebungen u. dgl.), dass man mit Hilfe der tatsächlich beobachteten 


; x Nat : e : 
relativen Häufigkeit -® festzustellen versucht, in welchen Grenzen sich 
n 


das unbekannte p befinden müsse. Und hierdurch gerät der Statistiker 
bereits in den Problemkreis der Umkehrung des Theorems von Bernoulli. 
Selbstverständlich wird er sein Verfahren so aufbauen, dass er alle vorhan- 
denen Informationen über seinen Fall mit berücksichtigt, d. h. in die Be- 
rechnungen einbezieht. Es ist schwer sich vorzustellen, dass der Statistiker, 


m 
7 : : L & Tr 7 
abgesehen vom beobachteten Wert der relativen Häufigkeït AS keine Vor- 


stellung darüber hat, ob die unbekannte Wahrscheinlichkeit p während 
der ganzen Beobachtungsserie wirklich konstant geblieben, oder ob sein n 
auch genügend gross ist, um für das von ihm gewählte {,, die Benutzung 
der Formel (3) ohne Restglied À, zuzulassen. Besitzt er solche Kenntnisse 
nicht, so sollten sie eben postuliert werden, denn es geht doch nicht an, die 
Umkehrung eines Theorems an andere, strengere oder auch allgemeiner 
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gefasste Bedingungen zu knüpfen als das ursprüngliche Theorem selbst. 

Das relativ einfachste Verfahren, um das unbekannte p einzugrenzen, 
besteht in folgendem : Man setzt seine Sicherheitsgrenze & fest, findet das 
ihr entsprechende {, und berechnet an Hand des direkten Theorems, welches 


0 


RTL : 
kleinste p — y, noch eine so grosse relative Häufigkeïit F ergeben kônne, 


m 
.. . . . 0 . 
und ebenso : welches grôsste p — y, mit einem so kleinen _ noch zu verein- 


baren wäre. Mit anderen Worten, man lôst die beiden simultanen quadra- 
tischen Gleichungen : 


ny + h Vrys (I — y) UE 
Ne — là VnYa (À — Ye) = Mo 
in bezug auf y, und y, auf. Das Ergebnis ist die sogen. Millotsche Formel: 


(12) k (ee  h fi jet Po … 


n+ti\n 2n n Ah 


HAE mm), À 
LPS (R PER) a): 


n+té\n nr l'An? 


über deren Geschichte man etwa auf S. 501 meines schon zitierten Aufsatzes 
in der Schweiz. Zeitschr. für Volksw. und Statist. (1947) nachlesen kann. 

Die Formel ist theoretisch vollkommen korrekt, aber im Gebrauch 
schwerfällis, und daher entsteht die weitere Frage, ob und unter welchen 
Bedingungen man oben in (3) das unbekannte p einfach durch seinen relativ 


plausibelsten Näherungswert —% ersetzen künnte, um auf diese Weise aus 
n 


; : : m c : 
(10) die Eingrenzung nicht von ce sondern von p zu gewinnen. Dass dies 


grundsätzlich môglich sein müsste, ersieht man schon aus den Verein- 
fachungen, die sich für die Formel (12) ergeben, wenn man bei klein- 
bleibendem {, den Umfang der Beobachtungsserie n unbegrenzt zunehmen 
lässt. 

Man verfährt im Wesentlichen wie folgt. Es wird zunächst wieder postu- 
liert, dass die für das Zustandekommen des direkten Bernoulli-Laplaceschen 
Theorems notwendigen Bedingungen auch für die Umkehrung zu recht 
bestehen. Diese sind :1) eine konstante Grundwahrscheinlichkeit p und 2) 
ein genügend grosses n sowie ein nicht zu grosses t, bzw. k, (vel. oben Formel 
7), um nicht nur den Umgleichungen (11) zu entsprechen, sondern auch 
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_ die Vernachlässigung des Restgliedes R, in (3) zu ermôglichen. Letzteres 


; PAL LMRES 1 1 
läuft auf die Forderung hinaus, Grôssenordnungen von ] und abwärts 
/n 

unterdrücken zu kônnen. Wenn sich nun nach n Versuchen die relativen 
Häufigkeiten 

m Im 
(13) = und el puis 

Pi Fe 1 Pi É 

ergeben haben, so ist man mit Rücksicht auf das bereits Gesagte berechtigt, 
die Eingrenzung 


(14) — k; Vnpq << M—np<=<+k lnpq 
als praklisch gesichert anzusehen. Setzt man jetzt 


(14a) d = M —np, 


$ d d | 
È à i Ib : — l AE l = Il l , 
so erhält man unmittelbar : p pl — und g = 4; ( ET 


ferner aus (4): 


PRE CRT au 
0 = Vnpq Fe Vnpiq IE F2 =) (1 Le a , 


oder wenn man 


É —— Mo (1 — Mo) 
(15) S — Vnpiq =" sr A D 


(16) co —Ss TERATE JR = | 


Es steht uns immer frei, ein 4 bzw. k, so zu wählen, dass die Gleichungen 
(17) Ho —=t4s und, ko=ks 


für jeden Wert von {4 = k, zu Recht bestehen (wobei man übrigens nach- 
weisen kann, dass wenigstens bei grôüsseren n sich & und k, nur relativ wenig 
von {, und k, unterscheiden werden), so dass man anstelle der Eingrenzungen 
(7) und (14) auch die Eingrenzungen 
ke Vnpin < x < + ke Vnpic 
— ke np = ? + ke Vnpigs 


(18) te 
= ko Vnpih £ d € +R np 
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einführen kann. Setzt man nun in (3) anstelle von o seinen Wert aus (16) 
ein und entwickelt logarithmisch, so kommt man nach einigem Rechnen 
zu folgendem Ausdruck : 


(19) Pn}, He 0 | 252 


wobei +, wie früher, durch (5) definiert wird und R, ein recht kompliziertes 
Restglied bedeutet. Aber es fällt nicht schwer, sich zu überzeugen, dass 
solange die Eingrenzungen (18) bestehen, R, genau dieselbe Grôssenordnung 


von FE und abwärts besitzt, wie dies für R, in (3) festgestellt worden ist. 
n 

Wenn folglich n bereits so gross ist, dass À, in (3) einfach unterdrückt 

werden kann, so kann mit demselben Recht auch R, in (19) unterdrückt 

werden. Wegen (17) ergibt sich aus (8) ferner : 


(20) Im—npl=<ts und m—is<np=m+es. 


Fragt man folglich nach der Totalwahrscheinlichkeit dafür, dass æ sich in 
den Grenzen + {,0 befindet, so kann man gemäss (17) &s anstelle von £a 
einfügen und ferner (20) für (8a) und (19) für (3) schreiben. Man erhält dann 
den Ausdruck: 


L=bS 


| , x? 
Piim—np £&s)=PÎm—ts=<np=<m+ts.) =) LR 
arm 


der offenbar die Summe genau derselben Glieder der Reihe (1) darstellt wie die- 
jenige von (9). 

Und nach demselben trivialen Uebergang zum bestimmten Integral ergibt 
sich hieraus bei «genügend grossem n», Einführung der neuen Variablen 


L : 
Eee und Einhaltung der Eingrenzung 
2 
res Le 
n+é RO n+é 


_schliesslich den Näherungsausdruck : 


+t 
v? 
(21) Pim—hs<np<m+ts) = 1 et2 du D(t). 
V2x 
7 
Diese Formel sieht, wie gesagt, wie eine vollständige Umkehrung der 
De Moivre-Laplace’schen Exponentialform (10) aus, denn wenn dort 


A 
té 


N":. 
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®() die Wahrscheinlichkeit dafür darstellte, dass sich bei gegebenen p 


und n das noch unbekannte m in den Grenzen np + li Vnp (1 — p) befindet, 
so ergibt sich aus (21) die Wahrscheinlichkeit (4) dafür, dass, umgekehrt, 
bei gegebenen m und n das unbekannte np in den Grenzen 


m+ ts = np; + & Vnp: A — p)) 


enthalten ist. Der recht wesentliche Unterschied zwischen beiden Formeln 
besteht aber darin, dass (10) einen Satz der reinen Mathematik darstellt, 
der immer zutrift, solange {, sich in den Grenzen + k, bewegt und n aus- 
reichend gross ist, um À, vernachlässigen zu dürfen, während (21) bereits 
eine Aussage über die konkrete Tatsachenwelt mit einschliesst : (21) stimmt 
nämlich nur dann, wenn d — m,— np sich nach n Versuchen wirklich in 
den Grenzen (18) befunden hat. Dem Satz (21) kommt folglich nur jene 
Wabhrscheinlichkeiïit zu, die dem von uns gewählten k, entspricht und nie- 
mals in eine absolute Gewissheit im strengen mathematischen Sinn über- 
gehen kann. Doch wenn man aus der Ebene der reinen Mathematik in die 
Ebene der angewandten hinabsteigt, d. h. den Satz (10) mit Hilfe der 
« Cournotschen Brücke » als eine Form des « Gesetzes der grossen Zahlen » 
deutet, verwischt sich der prinzipielle Unterschied zwischen (10) und (21), 
denn für beide gilt jetzt dieselbe Sicherheitsgrenze &. 

Zum Schluss sei noch ganz kurz vermerkt, dass alle obigen Ueberlegungen 
sich ohne Schwierigkeiten auch auf das für die Anwendung der Repräsenta- 
tivmethode so wichtige Urnen-Schema des «Ziehens ohne Zurücklegen » 
verallgemeinern lassen. 


Universität München. O. ANDERSON. 


Zusammenfassung 


Das « Gesetz » oder « Prinzip » der grossen Zahlen ist kein Theorem der reinen Mathe- 
matik allein und bedarf zu seiner Begründung auch gewisser Feststellungen über Erfahr- 
ungen des täglichen Lebens. Im Aufsatz wird besonders auf die Begründung des Gesetzes 
der grossen Zahlen durch A. Cournot (1843) hingewiesen und wird gezeigt, dass die 
« Cournotsche Brücke » es erlaubt, die Umkehrung des Theorems von Bernoulli ohne 
Rückgriff auf das Theorem von Bayes einwandfrei durchzuführen. — O. A. 


LE VRAI ET LE PROBABLE 


1. Il y a longtemps qu’on discute sur les fondements de la théorie 
des probabilités; peut-on affirmer que la question se soit éclaircie? Oui, 
car chaque point de vue a été développé et illustré; mais on est encore 
bien loin d’être arrivé à une conclusion et chaque conception est demeurée 
étrangère aux autres. 

Est-il possible d'améliorer cet état de choses, et de quelle façon ? 

Tout d’abord, il faut que la question soit bien posée et la situation bien 
connue. 

Il faut se rendre compte que les diverses conceptions de la probabilité 
constituent des constructions logiques indépendantes les unes des autres 
et qu’on n’a pas le droit d’exclure a priori la possibilité qu’elles soient toutes 
acceptables. La controverse célèbre sur la notion de «force d’un corps en 
mouvement » a conduit à reconnaître que les termes : « force vive » et « quan- 
tité de mouvement » ont chacun une signification qui leur est propre; de 
même rien n'empêcherait d'imaginer que les deux notions de probabilité 
objective et probabilité subjective puissent subsister l’une à côté de l’autre. 

À mon avis, cette possibilité théorique ne correspond pas à une pluralité 
effective ; toutefois l'observation est essentielle du point de vue méthodo- 
logique. Elle signale, en effet, qu’il serait tout à fait inefficace de soulever 
certaines critiques au sujet d’une conception, alors que ces critiques sont 
inspirées par une autre ; on démontrerait seulement que les deux conceptions 
ne coïncident pas. Pour démontrer qu’une conception n’est pas acceptable, 
c'est en elle-même ou dans la façon dont on envisage son application pra- 
tique qu'il faut trouver des défauts. 


2. En tout autre domaine que dans celui de la théorie des probabilités, 
la remarque que nous venons de faire serait sans doute superflue : lorsque 
deux auteurs donnent «d’une même notion» des définitions divergentes, 
il s’agit en effet de « deux notions » auxquelles ces auteurs attribuent «un 
même nom »; chaque définition peut donner lieu à des critiques intrinsèques 
(si elle est dépourvue de sens, ou incomplète, ou ne répond pas à des exigences 
pratiques), mais en dehors de cela personne ne songerait à dire que l’une 
des deux notions est « juste » et l’autre « fausse ». 
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Dans le cas de la théorie des probabilités, il y a plusieurs circonstances 
qui rendent moins facile de poser la question d’une façon aussi nette : 

1° plusieurs autéurs ne donnent pas une véritable définition de ce qu'ils 
entendent par «probabilité », mais seulement des explications insuffisantes 
pour toute analyse critique et même pour reconnaître l'identité ou la diversité 
entre leurs interprétations ; 

2° chaque auteur est persuadé que les autres points de vue sont insou- 
tenables, si bien que les critiques révèlent rarement un véritable effort pour 
pénétrer les conceptions opposées ; 

30 cela est vrai surtout à l’égard de la conception subjective, à l'égard 
de laquelle s'élève le préjugé de considérer l’objectivité comme un des 
caractères essentiels d’une définition admissible ; 

40 cet effort de pénétrer des conceptions diverses est effectivement 
difficile aussi parce qu’une diversité dans la définition de la probabilité 
exige toujours une vision radicalement modifiée de toute la théorie même 
dans sa structure formelle. 

3. Le but que je me propose ici est précisément de contribuer à sortir 
de cette impasse, en cherchant à éclaircir ces points préjudiciels qui 
empêchent l'entente méthodologique nécessaire pour discuter avec l'espoir 
que chacun comprendra le langage de l’autre. 

La nécessité d’une définition précise des termes est hors de doute: le 
point de vue opératif a montré l'importance de cette exigence primordiale 
de la logique. Une affirmation n’a de sens que si l’on sait indiquer des opé- 
rations expérimentales aptes à y donner une réponse ; la définition d’une 
notion n’est légitime que lorsque la proposition sur laquelle elle repose 
a un sens bien déterminé. La pensée scientifique était déjà parvenue à cette 
conception par le développement de l'analyse critique des principes; la 
portée de ce point de vue a été ensuite éclairée d’une façon éclatante lorsque 
des découvertes inattendues ont amené la physique à créer des théories 
nouvelles et l’ont obligée à une revision de notions au premier abord incon- 
cevable. Qu'il suffise de rappeler l'exemple bien connu de la relativité de 
la notion de simultanéité d’après Einstein. 

La probabilité, quelles que puissent apparaître les raisons exceptionnelles 
à invoquer pour ce cas, ne peut se soustraire à une telle exigence primordiale : 
ou bien ne parlons pas de probabilité, ou bien faisons-en des propositions 
dont l’on sait ce qu'on veut signifier en affirmant qu'elles sont vraies ou 


fausses. 


Une définition viciée de réserves et d’incertitudes, une définition « à peu 
près », ne peut répondre à cette exigence. Lorsqu'un auteur dit que la proba- 
bilité est «la valeur presque sûrement très voisine de la fréquence sur un 
nombre suffisamment grand d'épreuves », ou «une constante physique dont 
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les fréquences donnent des mesures approchées », ou «une grandeur introduite 
par analogie avec le cas des jeux », etc., il ne donne pas la possibilité (bien 
entendu théorique) de déterminer quelles affirmations seraient vraies ou 
fausses pour lui, On ne peut guère analyser avec certitude la structure formelle 
qui en résulte, comme on essayera de le faire dans le cas de définitions précises. 

Les conceptions aboutissant à des définitions insuffisantes ne pourraient 
faire l’objet d’une analyse de ce genre que si quelqu'un savait en extraire une 
formulation consistante. 


4. Pour se prémunir contre le danger des notions mal définies et des 
discussions sans fin qui en sont la conséquence inévitable, il faut suivre le 
critérium fondamental consistant à éliminer la notion en question en tra- 
duisant — à l’aide de la définition à examiner — toute proposition où elle 
intervient dans une proposition où elle n'intervient pas. Si un certain nombre 
de ces propositions ont une signification effective, c’est-à-dire s’il y a la 
possibilité, du moins théorique, de vérifier si elles sont vraies ou fausses, 
la définition envisagée a bien une signification par rapport à ce type de pro- 
positions, qui déterminent la structure syntactique qu'elle exige. 

Si, par exemple, on adopte la définition de la probabilité soutenue par 
quelques statisticiens, qui voudraient l’identifier avec la fréquence, ou bien 
celle d’autres auteurs, qui voudraient l'identifier avec la fréquence-limite, 
ce but est sans doute atteint. La probabilité, selon ces définitions, est bien 
déterminée comme nombre réel p associé respectivement à un ensemble 
fini d'événements (ou «épreuves », dans une terminologie différente), ou à 
une suite d'événements (infinité dénombrable ordonnée comme les nombres 
entiers). 

Dans ces conditions, une définition de ce genre est irréprochable sous le 
rapport logique, pourvu que, de la notion de probabilité, l’on ne prétende 
pas faire un usage que la définition ne saurait légitimer. C’est de ce point de 
vue que des objections peuvent être soulevées, et je n’ai pas l'intention de 


répéter ici les critiques faites par plusieurs auteurs et par moi-même à ce 
sujet. 


9. En nous donnant pour but d’éclaireir les points de désaccord sous 
l'aspect méthodologique plutôt que d’entrer dans le mérite des discussions, 
bornons-nous à nous expliquer la raison qui pousse plusieurs auteurs à se 
rallier à une définition de ce genre, qui, même alors qu’on n'accepte pas les 
objections de principe, conduit à des difficultés au sujet desquelles les auteurs 
mêmes sont en désaccord. 

La raison réside dans la conviction qu'une définition irréprochable 
doit nécessairement être une définition objective. 

La notion naïve de probabilité rappelle d’une part des impressions de 
nature subjective, psychologique, et se rattache, d'autre part, à des éléments 
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objectifs tels que lé «nombre des cas favorables » (dans les problèmes des 
jeux) et la fréquence (dans les applications statistiques). 

Pour parvenir à une définition opérative de notions physiques, telles que 
la force et la température, il a fallu dépouiller celles-ci des images anthropo- 
morphiques et les fonder sur les seuls faits objectivement observables. 
De même devra-t-on éliminer tout élément subjectif de la notion de pro- 
babilité et préciser les circonstances susceptibles de la caractériser objecti- 
vement. 

Voici l’analogie qu’inspire la recherche de définitions opératives de nature 
objective. 


6. La conviction que toute notion bien définissable doit avoir une signi- 
fication objective ne constitue cependant qu’un préjugé : une notion sub- 
Jective peut également être clairement définie, 

Il y a sans doute des notions dont la signification est essentiellement 
subjective. Un individu nous est «sympathique » si nous éprouvons, à son 
égard, une disposition d'âme déterminée; même si l’on avait observé — 
supposons-le — que des caractères physiques ou moraux objectivement 
observables dans les individus les rendent généralement sympathiques ou 
non sympathiques, une définition «objective» du mot «sympathique » 


_ liée à ces circonstances constituerait une déformation de la notion considérée. 


La notion de probabilité ne pourrait-elle aussi être essentiellement 
subjective dans ce même sens, c’est-à-dire exprimer simplement un état 
d'âme personnel à l'égard d’un événement? Une définition opérative adé- 
quate ne pourra alors que sonder cet état d'âme. 

Telle est l’analogie qu'inspire la recherche de définitions opératives de 
nature subjective. | 


7. Avant de nous occuper de la probabilité subjective, il sera utile de 
préciser la nature logique des distinctions sur lesquelles on devra insister, 
en développant quelque peu en détail l'exemple cité. Il va sans dire que 
seule la structure logique aura de l'intérêt pour nous et sera analysée avec 
soin, tandis que l'exemple en soi sera traité de façon tout à fait sommaire. 


Supposons done que pour le mot «sympathique » on ait proposé les défi- 
nitions opératives suivantes : 

a) l'affirmation «l'individu À est sympathique pour l'individu 0» signifie 
que «si O est libre de choisir si de rester seul ou en compagnie de À, il préfère 
la compagnie de À ». 

B) l'affirmation «l'individu À est sympathique» signifie que « À a l'habi- 
tude de sourire », 

ou d’autres encore : y), à), etc. qu’on pourrait multiplier. 

Avant tout, discuter sur ce qu'est la définition «juste » n’a pas de sens. 
On a par définition des notions qu'on pourrait distinguer en spécifiant « sympa- 
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thique-a», «sympathique-B», etc. (comme mesurable-L, mesurable-B, etc.) ; 
chaque définition pourra s’avérer légitime ou non, et, si elle l’est, plus ou 
moins conforme à l’usage commun du mot «sympathique » et aux buts qu’on 
se propose en le précisant. 

La définition est légitime si l'affirmation sur laquelle elle s’appuie est 
vérifiable d’une façon univoque : en général cette légitimité est subordonnée 
à la validité de certaines prémisses ou hypothèses, qui excluent la possibilité 
pour l'opération de donner une réponse ou une autre selon l’instant ou les autres 
circonstances. Par exemple pour a) on devrait supposer que le choix de O 
est le même qu’il s’agisse de la compagnie pendant le travail ou dans une pro- 
menade, etc. (sinon, la définition est à abandonner ou à spécifier). 

Lorsqu'une définition est légitime, le domaine des affirmations qu’on peut 
formuler avec le mot défini est parfaitement déterminé par la définition même, 
et cela constitue la structure logique adhérente à la notion. Entre a) et B) 
non seulement la définition change, mais encore la structure logique, car 
par exemple l’affirmation « À est sympathique » n’a pas de signification selon 
a) mais en a une selon B) (si À est un individu). Il faut noter en particulier 
la différence de structure qui distingue les deux affirmations, d’apparence 
semblables : 

19 «l'individu À est sympathique-a pour l’individu O », et 

20 «l'individu O croit que l'individu À est sympathique-f ». 

L'une et l’autre des phrases 1° et 20 expriment un jugement de O sur À, 
mais dans le cas de 1° le jugement ne contient rien de plus que le jugement 
même, tandis que dans le cas 2° on peut se demander si O se trompe ou ne 
se trompe pas, la proposition étant un jugement de O sur une affirmation 
ayant une valeur indépendante de O. Il faut prendre garde au fait que le 
langage ne fait pas ressortir cette distinction. Nous exprimons cela en disant 
que a) donne à «sympathique » une signification subjective, n’ayant aucun 
sens si l’on ne supposait l’existence et la possibilité d’interroger des individus 
O, et B) une signification objective. 


8. Quelques observations encore. 


Supposons que l’on ait constaté que tous les individus O répondent de la 
même façon à la question de savoir si les individus À sont sympathiques-a 
ou non; on peut alors définir « sympathiques-a’ » les individus À tels qu’ils 
sont «sympathiques-a» à un individu O (et donc à tous). Cette définition 
a” est-elle objective ? Non, car il y a encore lieu d’explorer l’état d'âme ou le 
comportement d’autres individus ; ici il y aurait donc une signification sub- 
jective bien que le jugement subjectif soit (par hypothèse) commun à tous les 
sujets (s’il n’y a aucun sujet, la définition n’est pas applicable). 

Le cas changerait si l’on suppose en outre que ce jugement commun 
coïncide par exemple avec la notion de « sympathique-B », qui a une signi- 
fication objective. Mais il faut bien remarquer que même dans ce cas les deux 
notions ne peuvent être identifiées : il faut bien que l’on fasse une distinction 


entre les deux notions pour pouvoir constater ensuite qu’elles donnent le même 
résultat. 


Il y aurait beaucoup à ajouter pour compléter cette esquisse sur des ques- 


tions qui pourraient peut-être présenter de l'intérêt pour la théorie de la défi- 
nition en général; pour le but actuel il n’est pas nécessaire d’y insister. On 
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observera toutefois encore que les considérations développées sur cet exemple 
ont un caractère général, et que le choix d’un exemple différent de celui de la 
probabilité auquel nous viendrons bientôt n’avait d'autre but que de faire 
mieux ressortir ce caractère général, en montrant surtout la signification 
logique de la distinction que nous faisons entre «objectif» et « subjectif », 
et qui semble plutôt métaphysique à d’autres auteurs. 


9. Une des formes dans lesquelles on a proposé de préciser par une 
définition opérative la notion subjective de probabilité est la suivante. 
On dira que «la probabilité de l'événement Æ selon le sujet O (individu 
donné dans un instant donné) est le nombre réel p » pour affirmer que «si 
le sujet O est invité à choisir librement le taux + auquel il sera obligé de 
s'engager à accepter des paris sur l'événement E, soit dans un sens soit dans 
l’autre, il choisira x —p ». 

Plus généralement, on peut définir de la même façon la «probabilité, 
selon O, de l'événement Æ subordonné à l’événement 1», en ajoutant 
seulement «les paris n’ayant effet que $i Æ est vérifié ». On considère, en 
résumé, des paris avec gain 
— ps, (A — p}S, 0 
dans les trois cas ; 

«H et non EE», «Het EE», «non H », 


avec taux p fixé par O et enjeu S fixé par l'adversaire. (Si la probabilité 
n’est pas subordonnée, Æ — certain, le troisième cas tombe, les deux pre- 
miers ne sont que «non Æ»et «E ».) 

Le caractère opératif de la définition est évident : l'énoncé même explique 
l'expérience à exécuter pour mesurer la valeur de la probabilité (entendue 
dans le sens subjectif) que le sujet O attribue à un événement Æ donné 
(éventuellement : subordonné à un autre H). 

Et rien ne peut empêcher de choisir une telle définition, c'est-à-dire de 
prendre pour objet d'étude les opinions individuelles qui peuvent se mani- 
fester par ce procédé. Il s'agira toujours d'analyser dans quels cas l'usage 
de cette notion de probabilité est légitime ou non selon la définition citée, 
et si l'interprétation qui en découle est satisfaisante par rapport aux appli- 
cations pratiques que la théorie des probabilités devrait consentir. 


10. Avant tout, il faut introduire la notion de « cohérence », sans laquelle 
la définition de probabilité subjective ne pourrait donner lieu à un «calcul 
des probabilités ». Rien n'empêche en effet, a priori, qu'un sujet O0 donne 
à la probabilité de divers événements des valeurs fixées sans souci de res- 
pecter, par exemple, le théorème des probabilités totales. Mais, dans ces 
conditions, les adversaires de O ont la possibilité de gagner à coup sûr: il 
suffirait de fixer les enjeux dans une combinaison propre (solutions d’un 
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système d'équations linéaires) pour que le gain soit, par exemple, constant 
indépendamment du résultat des événements considérés. 

Nous dirons qu’un sujet O (ou une évaluation de probabilités) est cohé- 
rent si cette possibilité est exclue. Le calcul des probabilités est alors la 
théorie des conditions que tout sujet O est obligé de respecter s’il veut garder 
la cohérence: dans l’évaluation de chaque probabilité, il est libre de lui 
attribuer une valeur quelconque entre 0 et 1 selon son opinion, mais il est 
tenu à respecter les liaisons entre les probabilités d'événements liés (par 
exemple le théorème des probabilités totales : p = p; + ps Si E = 1 + Es 
incompatibles, qui est, ainsi que nous l’avons démontré, une conséquence 
de la cohérence). 

Ainsi conçu, tout le calcul des probabilités a. une signification complète- 
ment indépendante du fait que l’on accepte ou non la conception subjective 
de la probabilité : si l’on connaît les taux p, … p, suivant lesquels le sujet 
O accepte des paris sur des événements E, … E,, conclure que «la proba- 
bilité d’un autre événement E est p » signifie constater que si O acceptait 
des paris sur E avec un taux + Æ p on pourrait fixer les enjeux sur E, E;. 
E, de façon à gagner contre lui à coup sûr. 


11. Le peu que nous avons dit suffit en vue de cette analyse méthodo- 
logique qui constitue notre but. 

Il s’agit de préciser les questions qui ont ou n’ont pas de sens, dans telle 
ou telle autre conception de la probabilité, et avant tout de fixer la signi- 
fication exacte qu’on doit donner aux termes. C’est en effet la négligence 
de ces précautions élémentaires qui complique les disputes par des malen- 
tendus de principe. 

Dans cette analyse, nous nous référons surtout à la conception subjective, 
non seulement parce que c’est celle que je soutiens et qui a le plus de besoin 
d’être protégée contre ces malentendus, mais aussi parce qu’elle constitue 
le point de vue le moins rigide et peut de ce fait mieux servir de repère à 
des comparaisons. 


12. Avant tout, examinons la notion d'événement. 

Pour la définition subjective (n° 9), il est essentiel que l’on entende par 
«événement » un fait singulier déterminé sans ambiguïté et dont on pourra 
connaître le résultat : il faut bien, en effet, que les conditions d’un pari (ou 
d’une assurance, comme on dit s’il y a une finalité économique particulière) 
soient précisées sans possibilité de contestation. Nous appelons donc « évé- 
nement» ce que plusieurs auteurs appellent «épreuve d’un événement » 
(en admettant éventuellement d'appeler « épreuves d’un même phénomène » 
des événements ayant quelque chose en commun, sans qu’à cette façon de 
s’exprimer on puisse attacher une signification effective); cette termino- 
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logie, particulièrement à propos dans la conception subjective, l’est aussi, 
à mon avis, dans les autres, pour les raisons que nous allons voir ensuite. 

La condition qui veut qu’il s'agisse d’un fait « vérifiable » peut naturelle- 
ment être entendue de façon plus ou moins idéalisée: on peut se borner 
aux faits effectivement vérifiables au cours du temps prévu pour le pari 
par les contractants, ou inclure ce qu’on pourrait vérifier en principe, en 
faisant abstraction de la durée limitée de la vie humaine (par exemple 
avenir des étoiles), ou de la perte d’une documentation (par exemple faits 
historiques douteux), ou de difficultés pratiques de conclusion (par exemple 
millionième chiffre décimal de x), ou encore en admettant des procédés 
transfinis de la pensée (par exemple conclusion que les réalisations sont en 
nombre fini ou infini parmi une infinité d'événements dont chacun en soi 
est vérifiable). La « vérifiabilité » peut donc consentir plusieurs variantes, 
mais on doit spécifier dans plusieurs cas au préalable la signification qu'on 
veut considérer pour éviter des doutes et des objections au cours de 
recherches. 


13. La définition subjective de la probabilité permet d'attribuer un 
sens (objectif !) à la distinction entre les évaluations de probabilités qui sont 
cohérentes et celles qui ne le sont pas ; la question de distinguer, parmi les 
opinions cohérentes, s’il y a en une qui soit « juste » ou quelques-unes qui 
soient «plus justes» que les autres, est tout à fait étrangère au point de vue 
subjectif et dénuée de sens. 

Deux observations sont surtout à souligner. 

Aucune circonstance extérieure objective ne peut obliger un sujet © 
à considérer que deux événements soient également probables, où qu'ils 
soient indépendants. Dans le sens subjectif, on ne peut que partir de l’éva- 
luation des probabilités faite par O et définir respectivement légale proba- 
bilité et l'indépendance par la constatation que O a fixé le même taux pour 
les paris sur les deux événements, ou qu'il ne change pas le taux d'un pari 
relatif au premier de ces événements lorsque le pari est subordonné à l'autre. 

Les symétries physiques ou de nature quelconque qui constituent une 
prémisse dans toute théorie fondée sur la considération d'épreuves d’un 
même événement » ou d'«indépendance », ne jouent donc ici aucun rôle 
a priori : elles n’ont de poids que dans le cas et dans la mesure où elles résul- 
tent du jugement de ©. En un mot, égalité de probabilité et indépendance 
ne sont pas des propriétés intrinsèques, objectives, des événements, mais 
des propriétés de l'opinion d’un sujet à leur égard. C’est pourquoi dans la 
conception subjective la terminologie proposée («événement » — «épreuve ») 
s'impose ; elle est utile aussi bien dans les autres théories si l'on ne veut pas 
laisser dans l'ombre ces questions préjudicielles sur la signification des termes. 
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La deuxième observation est peut-être plus essentielle dans le but 
d'éliminer des malentendus. 

Si la probabilité n’a de sens et de valeur, dans la définition subjective, 
que lorsqu'elle a été évaluée, des notions telles que « probabilité inconnue », 
«hypothèse sur la valeur d’une probabilité inconnue », «expérience qui con- 
firme ou démentit une évaluation de probabilité» sont totalement illusoires, 
et tout raisonnement qui se fonde sur elles doit être refusé ou modifié. En 
particulier : on n’a pas le droit de parler de « la probabilité que la probabilité 
d’un événement donné ait une valeur assignée », car l'évaluation d’une 
probabilité constitue un jugement et non un fait sur lequel on puisse parier. 


14. Ces deux observations préservent la théorie subjective de l’incon- 
vénient des difficultés presque inextricables dont toute autre conception est 
affligée. Mais cela ne veut pas dire que cette théorie soit impuissante à poser 
ces problèmes sous une forme dont elle ne conteste plus la légitimité. Dans 
la plupart des applications, les « hypothèses sur la probabilité inconnue » 
ne sont à rejeter qu’en raison de cette formulation malheureuse, tandis 
qu'il s’agit réellement d’«hypothèses sur des circonstances de fait » (par 
exemple sur la composition d’une urne, ou sur une LAN AE qui ne donnent 
lieu à aucune difficulté. 


Un exemple rendra évidente l’essence de la distinction. 

Si l’on a une urne contenant 4 boules, blanches et noires, et qu’on évalue 
à Pos Pas Pes Ps» Pa les probabilités qu’il y en ait h = 0, 1, 2, 3, 4 noires, on dit 
habituellement que p, … p, sont «les probabilités » que la probabilité inconnue 
soit 0, 1/4, 1/2, 3/4, 1. Cela est contesté, selon la définition subjective, déjà 
du fait que la connaissance de la composition n’oblige pas à attribuer la pro- 
babilité h/4 au noir (c’est le sujet O qui doit juger de l’égale probabilité des 
4 boules !). Mais, même s’il en juge ainsi, il faut bien distinguer entre la véri- 
fication d’un fait (ici: composition de l’urne) subordonnément auquel on évalue 
à h/4 la probabilité (énoncé irréprochable) et la vérification de l’« hypothèse » 
que la « vraie probabilité » soit h/4 (énoncé inadmissible). En effet, supposons 
que nous allons effectuer 4 tirages (et supposons que O les juge indépendants : 
mais il pourrait ne pas être de cet avis et il y aurait un argument en plus). 
On peut dire alors que dans les 5 cas (noir 0, 1, 2, 3, 4 fois), de probabilité 
dos Gi» J2> As» Gas la probabilité de noir (à un coup donné) est 0, 1/4, 1/2, 3/4, 1 : 
les probabilités des 5 hypothèses sur la « probabilité inconnue » seraient alors 
à même titre les gx, et ce n’est pas gx = px: par exemple on a 


do = Po + P1 (3/4) + Pa (1/2Y + ps (JAY > Pos Si Pi + Ds + Ps # 0. 


15. Les définitions qui identifient la probabilité à la fréquence ou à la 
fréquence-limite étant des définitions irréprochables en soi, CARO elles 
aussi les difficultés provenant d’imprécisions. 

Il n’y a rien à leur reprocher pourvu qu’elles respectent effectivement 
la définition choisie; mais il serait alors préférable de conserver les mots 
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«fréquence » et « fréquence-limite » pour éviter des interprétations nébuleuses 
que le mot « probabilité » pourrait superposer à ces définitions. L'introduction 
de ce mot fait soupçonner — et l'analyse des applications confirme que 
ces conceptions ont besoin de cette confusion pour prendre l'apparence 
d’une «théorie des probabilités ». 

Toute application pratique de la théorie des probabilités, quel que soit 
le point de vue d’où l’on veuille l’envisager, consiste dans un jugement de 
vraisemblance sur un cas isolé qui intéresse (il pourra s’agir éventuellement 
de la fréquence relative à un petit ou grand nombre d'observations données, 
mais ce n’est pas moins de ce fait un cas isolé). Or, toute théorie réduisant 
la probabilité à une fréquence, ou bien considère effectivement un ensemble 
bien déterminé d'événements et n’est pas susceptible d'applications pratiques, 
ou bien considère la pluralité d'épreuves comme un artifice mental pour 
imaginer qu’un cas déterminé donne lieu à une multiplicité idéale d'images 
ou de répétitions de soi-même (identité dont je ne saurais voir de signifi- 
cation possible) et imaginer qu’elles donneraient lieu à une certaine fré- 
quence. Dans ce cas, les raisonnements sur les probabilités n’acquièrent 
pas une valeur objective. On ne fait qu'’associer à toute probabilité une 
interprétation objective par rapport à une construction fictive expressément 
créée par notre fantaisie: ce n’est qu’une superfétation qui n’ajoute rien 
aux raisonnements mais donne la possibilité de cacher comme une honte 
l'essence des jugements. 


16. Tout ce qu'on peut considérer d'objectif à l'égard des événements 
envisagés n’est nullement refusé par la conception subjective ; en particulier 
la fréquence et tout ce qu’on peut dire sur la fréquence y trouve sa place 
(et on peut aussi parler de la fréquence-limite, sous condition seulement de 
considérer comme « vérifiable » non seulement chacun des événements d’une 
suite donnée, mais toute la suite elle-même, ce qui est naturellement une 
exigence bien plus grande). 

Toutes les fois que l'évaluation d’une probabilité est effectuée par un 
sujet O en se basant sur l'observation d’une fréquence relative à des événe- 
ments « semblables », la théorie subjective, loin d'ignorer ce fait, en donne 
une explication complète, faisant ressortir avec clarté le rôle que jouent 
dans ces raisonnements les circonstances objectives d’un côté et les facteurs 
subjectifs de l’autre. Elle montre en effet que, dans le cas de la notion sub- 
jeetive de la probabilité conçue comme taux d’un pari, cette notion d'«événe- 
ments semblables » n’est plus quelque chose que l’on doit accepter à priort 
sans explications bien déterminées qui permettent de décider par des opé- 
rations effectives si certaines conditions sont remplies ou non: car c'est 
du raisonnement que découle directement la signification des suppositions 
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qu'on doit faire pour établir la conclusion, et ce sont précisément des condi- 
tions concernant non la nature des événements mais l’opinion du sujet sur 
leurs probabilités (par exemple qu’elles satisfassent la condition de l«équi- 
valence », c’est-à-dire celle de légale probabilité plus quelque chose d’ana- 
logue à l'indépendance mais plus faible) ; le fait que des événements soient 
«semblables » du point de vue courant ne constitue l’effective prémisse et 
n’a d'importance que dans le cas où le sujet serait amené de ce fait à 
l'opinion qui constitue la prémisse. 


17. Il faut souligner le renversement logique que les notions considérées 
subissent en passant de la théorie objective à la théorie subjective : leur 
définition devient subjective elle aussi (dépendant précisément de l’évalua- 
tion des probabilités) mais parfaitement définissable, tandis que la signifi- 
cation objective qu’on y supposait ne pouvait nullement assumer un contenu 
concret. | 


On dit d’habitude, par exemple: 

— si la pièce (à pile ou face), ou le dé, sont parfaits, 

— les divers coups sont « épreuves d’un même événement », 

— elles sont également probables et indépendantes, 

— donc les probabilités sont données par ces formules... 

Mais, qu'est-ce que c’est qu’une pièce parfaite? et comment peut-on 
vérifier que des coups soient également probables et indépendants? qu’ils 
sont « épreuves d’un même événement » ? 

Les définitions s’appuyant sur les fréquences ou les fréquences-limites 
sont impuissantes quand il faut les appliquer aux coups individuellement 
(d’où le recours à la considération de suites d’épreuves). En disant que la 
notion d’«épreuve d’un même événement » ou «d’une même expérience » 
doit être admise comme déjà connue dans les autres domaines, signifie ne pas 
avertir que dans les domaines des lois logiques ou déterministes la distinction 
est immédiate, car il s’agit de constater que les circonstances dont dépend le 
résultat ne changent pas ; ici le « résultat » serait la probabilité, et il n’y a pas 
de sens à prétendre que «les circonstances dont dépend la probabilité » ne 
changent pas, car la probabilité d’un cas isolé n’est pas définie dans les dites 
conceptions. 

Dans la théorie subjective toute incertitude disparaît : 

— on évalue les probabilités, 

— des événements aux probabilités desquels O a attribué des valeurs 
égales, sont dites « également probables selon O », 

— des événements dont les probabilités subordonnément aux autres sont 
évaluées par O par la même valeur, sont dits « indépendants selon O », 

— une pièce telle que O juge tous les coups également probables et indé- 
pendants est dite « parfaite selon O », etc. 

Qu'on rappelle une observation du n° 8: ces notions sont effectivement 
subjectives, dans le sens qu’il ne faut pas imaginer que O exprime un jugement 
sur le fait que la pièce soit parfaite ou non. Il n’y a lieu de considérer aucun 
fait, mais un pur jugement conditionné par l’existence effective d’un sujet O. 
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18. La situation peut donc se résumer de cette façon qui, je l'espère, 
pourra apparaître à tous comme une représentation fidèle des positions 
respectives des divers points de vue. 

19 La théorie s'appuyant sur les fréquences (ou sur les fréquences- 
limites) considère un certain nombre de circonstances et conclusions objec- 
tives à l'égard desquelles (sous la seule réserve de la « vérifiabilité» de la 
fréquence-limite) il n’y a rien à objecter: le point en contestation est la 
prétention que cette théorie constitue le calcul des probabilités. Si nous 
analysons mieux, il faut distinguer. Rien à contester (sauf l’inopportunité 
lexicale) contre la thèse qui limiterait effectivement le «calcul des proba- 
bilités » à ces affirmations objectives ; le danger commence au moment où 
l’on veut introduire quelque chose d'autre sans admettre que l’on devrait 
démontrer la valeur objective aussi de ce «quelque chose d'autre» pour 
assurer l’objectivité de la théorie. 

20 Le point de vue intermédiaire (et c’est sans doute le plus répandu 
actuellement) ne prétend pas, comme le premier, que la question de ce 
« quelque chose d’autre » soit écartée par le simple artifice de l’ignorer dans 
l'édification de ce qu’on appelle «la théorie » et de l'ajouter en cachette 
toutes les fois qu’on en fait une «application ». On se rend bien compte que 
les affirmations sur les probabilités ne s’identifient pas logiquement avec des 
affirmations objectives sur des fréquences ou sur des faits quelconques ; 
mais on cherche à combler cette coupure entre ce qui est objectif incontesta- 
blement et ce qu'on désire rendre objectif. On s'appuie sur le fait que l’on 
n'a pas habituellement l'obligation de distinguer nettement entre certitude 
logique et certitude pratique (probabilité voisine de 1), on fait appel aux 
singes dactylographes ou à d’autres exemples amusants, et la conclusion 
est. que la science doit se rallier à cette imperfection de la terminologie 
courante qui suffit à trancher la question ! Au contraire, il faut bien distinguer 
entre certitude pratique et certitude logique: il suffit d'observer que les 
propriétés fondamentales de la logique cessent d’être valables lorsque la 
certitude logique est remplacée par la certitude pratique. En admettant 
que la somme de deux événements pratiquement impossibles soit pratique- 
ment impossibles, la même conclusion s’étendrait par induction à un nombre 
fini quelconque de cas, tandis que la somme logique d'un grand nombre de 
cas pratiquement impossibles peut être très probable et même absolument 
certaine. 

30 Le point de vue subjectif accepte tout ce qui est accepté par les deux 
précédents sans attribuer cependant une valeur objective à ces notions ou 
jugements qui ne l'ont pas ou qui l’acquièrent seulement si l'on accepte 
la suggestion des singes dactylographes. Tous les éléments qui échappent 
à la première théorie et qui exigent dans la deuxième des efforts de condescen- 
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dance pour être acceptés sont ici nettement posés et rigoureusement précisés 
et utilisés. On avoue qu’on n’a pas trouvé de valeur objective, mais quel 
avantage aurait-il à cacher la vérité derrière un refus ou par un jeu de 
prestidigitation ? En revanche la théorie des probabilités devient ainsi un 
tout complet en soi et suffisant pour toute application ; ce n’est plus un tron- 
çon qui ne peut être utilisé sans recourir sous main à ces jugements (subjectifs) 
dont on voudrait contester l’existence ou la valeur. 

La théorie subjective considère qu’il est essentiel de mettre en toute lumière 
la coupure entre ce qui est objectif (constatation de faits et déductions logiques) 
et ce qui ne l’est pas: c’est la coupure entre les domaines respectifs du vrai 
et du probable ; la théorie des. probabilités ne commence véritablement qu’à 
cètte coupure, avant laquelle il ne peut y avoir que des théories introductives ; 
toute confusion entre certitude logique et certitude pratique doit être évitée 
et toute affirmation pratiquement certaine appartient — à la rigueur — 
au domaine de la théorie des probabilités. 


19. Une objection courante est que des difficultés pareilles se présentent 
dans tout autre domaine de la science. N'est-ce pas prétendre trop d’une 
théorie qui a pour objet l’incertitude, de vouloir en bannir ce qui est imprécis 
et incertain ? 


Les prévisions de la physique ne sont pas absolument certaines ; peut-on 
en attendre davantage de la théorie des probabilités ? 

Il ne s’agit pas d’établir des comparaisons. Toute théorie doit éclaircir 
son domaine spécifique. La physique donne ses renseignements, et utilise pour 
cela la logique ordinaire ou la logique des probabilités dans ses affirmations : 
elle ne peut se soustraire à l’examen des notions et définitions physiques ; 
elle peut et doit laisser de côté une discussion sur la notion de certitude, car 
c’est la logique et la théorie des probabilités qui en sont chargées. Mais si la 
théorie des probabilités se refuse à analyser cette notion, et affirme elle aussi 
qu’elle l’accepte au même titre que les autres sciences, pourquoi ne pourrait-on 
se refuser en physique de discuter la notion (einsteinienne, ou même classique) 


de temps sous le prétexte que les autres sciences l’acceptent comme une notion 
évidente ? 


Précisément parce qu'elle a pour objet l'incertitude, la théorie des pro- 
babilités ne peut laisser dans l’incertitude ce qu’elle entend par incertitude. 


20. D'autres difficultés s’opposent encore à l'acceptation du point de 
vue objectif. 

Le fait qu’une évaluation de probabilité est acceptée par la généralité 
des individus (normaux), donne-t-il le droit d'affirmer qu’elle est objective- 
ment «juste »? S'il s’agit d'exprimer cette concordance d'opinions, il vaut 
mieux employer un mot plus approprié, dire par exemple qu’il s’agit d’une 
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opinion commune, ou normale. S'il s’agit par contre de supposer que cette 
concordance d'opinions révèle l'existence de quelque chose d'objectif que 
l’on ne connaît pas, on ne peut qu’inviter ceux qui partagent cette opinion 
à pénétrer ce mystère, car supposer l'existence de quelque chose d’objectif 
n'est nullement suffisant pour créer quelque chose d’objectif. 


Il faut prendre garde aussi que cette concordance est parfaite seulement 
dans les exemples où elle est présupposée. Si l’on parle par exemple d’un 
«dé parfait », on indique déjà par cela que le sujet en question considérera comme 
également probables les six faces ; lorsqu'on a un dé réel, chaque sujet pourra 
accepter avec plus ou moins de confiance les formules concernant ce cas idéal 


(cette disparité se rendra manifeste au fur et à mesure que les fréquences 


s’écarteront de l'égalité, car celui qui « juge le dé parfait » ne fera pas dépendre 
de ce fait l’évaluation des probabilités successives, et les autres se laisseront 
influencer plus ou moins vite et sensiblement). 


Mais surtout on refuse de renoncer à une signification objective en croyant 
qu'il est inadmissible de se contenter de quelque chose de subjectif. C’est 
l'attitude caractéristique provoquée par les résidus de mentalité métaphy- 
sique faisant obstacles aux nouveautés imposées par une analyse scienti- 
fique plus rigoureuse. La même attitude fait opposer à la signification rela- 
tive de la simultanéité, expliquée par la définition opérative, l’objection 
que la vraie simultanéité est celle qui apparaîtrait à un observateur dispo- 
sant de signaux de vitesse infinie. 

A ce compte, tout ce qui a été précisé par l'adoption du point de vue 
opératif pourrait être remplacé de nouveau par les conceptions antérieures 
à condition qu'on invoquât un observateur fictif auquel on attribuerait 
arbitrairement les facultés nécessaires à rendre observable par lui ce qui 
a été abandonné faute d’être observable par nous. Il ne vaut pas la peine 
de discuter ces aberrations : il ne suffit pas de juger inadmissible la signifi- 
cation subjective pour en légitimer une objective tant que celle-ci n’a pas 


été trouvée. 


21. Et voici, selon mon opinion personnelle, la raison qui exclut qu'on 
ne la trouve jamais. 

Un événement peut se vérifier ou non: tout ce qu'il y a d'objectif en lui 
se réduit à cette alternative d’être vrai ou faux. Plus encore, on peut dire 
que la «réalité objective » n'est autre chose que le schéma représentatif des 
notions et phénomènes correspondant à des événements observables. 

La seule évaluation de probabilité «objectivement juste » ou «objecti- 
vement jouissant d'une situation de privilège » ou «appartenant au domaine 
de la réalité objective » (défini plus haut), serait celle qui attribuerait la 
probabilité 1 aux événements qui auront lieu et la probabilité 0 aux autres. 
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C’est là l'évaluation de probabilité qui serait faite par un devineur, 
mais il ne s’agit plus de probabilité, il s’agit de certitude. La probabilité 
existe pour ceux qui ne sont pas à même de deviner : toute autre évaluation 
choisie ne sera pas la «juste ». 

Et cela indépendamment du point de vue du déterminisme intégral 
(que je suis très loin d’accepter), selon lequel la prévision de ce devineur 
pourrait être déduite des données actuelles et des lois physiques : il n'importe 
pas que ce devineur puisse exister ou non, et deviner par «raisonnement 
déterministe », par «sorcellerie » ou par «hasard ». 


Trieste, 127 juin 1948. 
B. de FINETTI. 


LE RAISONNEMENT PROBABILITAIRE! 


A l’origine de la recherche scientifique, on trouve la nécessité de résoudre 
des problèmes ou d’expliquer des phénomènes et, au fur et à mesure qu’appa- 
raissent des caractères communs à des questions diverses, apparaissent 
aussi des principes généraux dont l’ensemble peut, parfois, servir de point 
de départ à une science nouvelle. 

En probabilités, les premiers problèmes soumis à la sagacité des chercheurs 
furent relativement simples, leur résolution ne demandant le secours que 
des éléments de l’arithmétique. Mais bientôt surgirent des problèmes plus 
difficiles à propos des jeux, de la statistique, de l'artillerie, des assurances, 
de la physique, de la géodésie, de la biologie et de bien d’autres matières qui 
vinrent poser des questions, souvent inattendues, en rapport avec les pro- 
babilités. 

La théorie les résolut, se développant et s’enrichissant chaque fois un 
peu plus, mais toujours guidée principalement par les nécessités et fort peu 
par le désir d’une synthèse des principes, en sorte qu’on peut considérer 
l'étude des probabilités comme évoluant encore dans une première phase 
caractérisée par les recherches dispersées. 

On s’en aperçoit bien en lisant quelques-uns des nombreux traités exis- 
tants, même choisis parmi les plus remarquables: la lecture de l’un n'est 
quasi d'aucune utilité en vue de la lecture de l’autre parce qu'il n'y a 
d'unité ni dans la conception ni dans l'exposé ni dans les moyens utilisés. 

Il convient donc de dégager les règles générales appelées à constituer une 
doctrine homogène ; or, la théorie des probabilités semble maintenant assez 


avancée pour qu'on puisse entreprendre une pareille harmonisation de ses 
principes. 


* 
* * 


Le groupe mathématique comprend plusieurs sciences qui doivent être 
considérées comme des disciplines distinctes parce que chacune a un objet 
propre et utilise, pour l'étude de cet objet, certains axiomes, postulats ou 


concepts fondamentaux. 
Dès lors, la théorie des probabilités mérite autant que toute autre 


1 D'après le traité Analyse des probabilités édité par la Librairie Universitaire à Louvain. 
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discipline le nom de «science ». Elle opère, en effet, sur un concept. qui lui 
est absolument propre et qui est précisément celui de la probabilité. Nul 
n’apprendra de la bouche d’un maître «ce qu’il faut entendre par la pro- 
babilité mathématique » s’il ne possède au préalable le concept de la pro- 
babilité. 

On a beaucoup discuté de la meilleure « définition de la probabilité ». 
Ces discussions manquent de pertinence mathématique et ne peuvent 
intéresser que le philosophe. Définir un concept, c’est le ramener à des 
concepts plus simples: est-il un concept simple auquel on puisse ramener 
celui de la probabilité ? Il semble bien que non, la probabilité se situant 
entre les concepts, absolument fondamentaux ceux-là, d'«être» ou de 
«ne pas être » et établissant précisément la transition continue de l’un à 
l’autre. 

Ce qu'on peut tout au plus espérer, c’est la création d’un système de 
mesure de la grandeur, d’essence toute particulière, attachée à la notion de 
probabilité. Je mesure cette grandeur par la fréquence d’arrivée sur un 
grand nombre d’épreuves et pour que le système de mesure soit permanent, 
faute de quoi il ne serait d’aucune utilité, j'introduis le postulat spécial de 
l'existence d’une limite de la fréquence quand le nombre d’épreuves grandit 


indéfiniment. 


+ * # 


Les avantages didactiques du postulat sont évidents lorsqu'il s’agit de 
dégager l'influence des données accompagnant un événement, d'établir la 
formule dite du produit ou des probabilités composées, de préciser la notion 
de la dépendance, enfin de raccorder la théorie des probabilités dites a 
posteriori à la théorie générale. 

Indépendamment de ces raisons, je ne pense pas qu’il faille accorder au 
ODA de la définition de la probabilité, ou de sa mesure, plus d'importance 
qu'il n’en demande. 

Le grand mérite de la géométrie euclidienne n’a pas été d’exprimer 
clairement ses principes fondamentaux et son postulat particulier, mais bien 
d’avoir exposé une suite de propositions qui en découlent plus ou moins 
directement de telle manière que les axiomes et le postulat constituent la 
synthèse de l’ensemble. Les géométries de Riemann et de Lobatchevsky 
n’ont rien enlevé à l’auréole d’'Euclide. Chacune d'elles constitue aussi une 
spéculation de l'esprit rigoureusement conforme à la logique, mais dont il 
appert qu'en définitive, c’est encore la première géométrie qui convient 
le mieux à ce qu’il nous est donné d’observer. 

Discuter longuement la valeur de la définition de la probabilité, c’est 
oublier un peu l’objet du calcul des probabilités qui est, non pas de déterminer 
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la probabilité d’un événement, comme on est de prime abord porté à le croire, 
mais bien d'établir les relations qui existent entre les probabilités de plusieurs 
événements. C’est donc la valeur logique de l’édifice terminé qui servira de 
critère de valeur aux prémisses adoptées. 

À la base de la géométrie classique, il faut le postulat de la parallèle : 
la forme qu'on lui donne importe assez peu. A la base de l’analyse des pro- 
babilités, il faut le postulat de la mesure; discuter sa meilleure forme et 
édifier la théorie sont deux choses très différentes : l'analyse des probabilités 
ne s'occupe que de la seconde. 


La définition de la mesure de la probabilité (et non pas la définition de la 
probabilité elle-même) par la limite de la fréquence présente un intérêt 
déterminant. Je vais m'en expliquer brièvement. 

À moins de se contenter d’un nominalisme intégral, faire une étude des 
probabilités, c’est chercher en définitive : 


19 à fixer la probabilité d’un événement donné, ce qui est du domaine 
du conventionnel ou de la statistique ; 

20 à étudier la manière dont se comporte la probabilité d’un événement 
par rapport à celle d’une autre événement. 


Admettons pour le premier point une réponse, conventionnelle ou réelle, 
qui ne postule pas le passage à la limite pour un nombre infini d'épreuves. 
Partant de là, on établit la théorie et, en fin de compte, on aboutit aux 
propositions de Bernoulli qui ne sont qu'approchées pour un nombre fini 
d'épreuves. Les conclusions contiennent donc quelque chose de moins que 
les bases. Il y a là une constatation décevante et qui ne se retrouve dans 
aucune science. C’est d’ailleurs la preuvé, ou bien que les bases n'étaient 
pas conformes à la réalité, ou bien que le raisonnement a manqué de rigueur 
à un certain moment. 

Il ne manque pas de moyens de s'assurer de la correction du raisonnement 
et, pour toute sûreté, on peut faire une première démonstration de la pro- 
position directe de Bernoulli sans introduire aucune approximation préalable 
dans les calculs. Alors il faut mettre en doute les bases adoptées et il en est 
bien ainsi : elles ne sont pas conformes au concept de la probabilité. 

Dans ces conditions, il paraît plus honnête de signaler, dès le début, 
le point délicat au lecteur, à savoir l'impossibilité de mesurer la probabilité 
sans passer par la fréquence et sans admettre l'existence d’une limite de la 


fréquence à l'infini. 


* 
* *k 
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Il semble pourtant que, de toute manière, on arrive, par les propositions 
de Bernoulli, à quelque chose qui diffère du point de départ et alors la logique 
formelle ne s’accommoderait pas mieux du postulat de la limite de la fré- 
quence que de n’importe quel autre. 


a / 
En effet, si p4 est la probabilité de l’événement À et Fe la fréquence 


des arrivées de À sur m épreuves, la mesure de la probabilité est 
DR 
pa = limite — pour m = © 
m 


quitte à préciser la signification exacte des mots « égal limite de ... » ce qui 
sera fait dans la suite. 
Plus tard, on apprend que, si on fait m épreuves sur le compte de À, on 
a une probabilité infiniment voisine de la certitude que la fréquence constatée 
diffère infiniment peu de la probabilité, supposée existante et connue, pourvu 
que m soit assez grand; si on préfère, on a 
SE pie 


| m 


avec une probabilité infiniment voisine de la certitude, si petit que soit & 
pourvu que m soit assez grand. 

On constate qu’on a pris comme certitude au départ ce qui n’est plus 
qu’une probabilité à l’arrivée et on retrouve encore dans les conclusions 
moins que ce que l’on a admis comme postulat. 

La contradiction n’est qu'apparente: les mots employés dissimulent 
la même réalité. 

D'une part, on a 


SAN CE 
PA —=Himite. pour m —=.00,; 


d’autre part, l’unité étant la mesure de la certitude, on a 


a | 
En lES 


avec une probabilité égale à 1 — 0, & et 0 étant infiniment petits pourvu 
que m soit suffisamment grand. 

Si on analyse ces deux affirmations au strict point de vue logique, on les 
trouve identiques; dans la première présentation, on dit m — co, ce qui ne 
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gène nullement le logicien; dans la seconde présentation, on parle d’un 
nombre m qui peut grandir indéfiniment parce que le mathématicien ne 
passe que «progressivement » à l'infini, voulant examiner de près ce qui 
arrive au cours de cette extension; mais quand m est infini, la probabilité 
devient la certitude. 

On retrouve donc dans les conclusions ni plus ni moins que ce qu’on a 
adopté au début et cela me paraît la meilleure justification du postulat de 
la mesure de la probabilité par la fréquence à l'infini. 


Ces brèves considérations montrent bien la place occupée, dans la théorie, 
par le postulat de la mesure et par le théorème de Bernoulli. 

Le théorème est l'aboutissement du postulat auquel il n'ajoute et ne 
retranche rien; encore une fois, c’est la meilleure preuve de la correction de 
la définition. 

Les mathématiques pures ne peuvent que présenter les choses autrement 
mais elles ne peuvent ni créer ni anéantir. Leur rôle pourrait sembler ainsi 
bien modeste, sinon futile; en réalité, il est très important, car l’analyse 
finit par faire apparaître bien des choses contenues, en substance, dans les 
prémisses mais que rien ne permettait de prévoir. Il n’en est pas autrement 
en matière de probabilités. 

Le postulat de la mesure s'exprime par 


EAU 
pa = hniter pour m = 05: 
m 


Que peut-on et que faut-il entendre par là ? 

Peut-on strictement affirmer, la mesure p de la probabilité étant supposée 
connue, qu’une expérience composée de cent millions d'épreuves fournira 
une fréquence très proche de p ? 

Assurément non! 

Quel que soit le nombre m des épreuves, chacune des fréquences, 


VAT TR m—il m x : 5 
; ; >. s — peut arriver et, cela, chacun le sent très bien 
n 


m m m m 
même sans avoir jamais fait de mathématiques: on ne peut rien aflirmer 


œ AE Eu . ne Se FER 
d’absolu au sujet de — , qu'il s'agisse d’un événement rare ou d'un événe- 
m 


ment commun. L'événement rare, si rare soit-il, peut très bien arriver un 
million de fois sur un million d'épreuves; l'événement Commun, si Commun 


7 
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soit-il, peut très bien ne pas arriver une seule fois sur un million d'épreuves : 
rien n’est impossible. 

Alors en quoi se distinguent ces deux sortes d'événements: les rares et 
les communs ? 

Tout simplement en ce que de nombreuses expériences, composées 
chacune de beaucoup d'épreuves, ne fournissent que peu de grandes 
fréquences quand il s’agit d'événements rares, l'inverse ayant lieu pour des 
événements communs. 

Voilà donc le caractère de probabilité d’un événement défini par la pro- 
babilité: il ne saurait en être autrement si, comme on doit finalement 
l’admettre, la probabilité est une notion fondamentale. 

Peut-il, dès lors, exister une loi de survenance des événements incertains ? 

Au sens absolu des mots, non: la certitude ne peut naître de l’incertain; 
s’il y a une «loi», elle ne peut avoir que le caractère d'incertitude de ce 
qu'elle prétend représenter, autrement elle introduirait quelque chose qui 
n'existait pas ou, si on veut, elle ajouterait aux données primitives. 

Reprenons le concept fondamental de la probabilité, à savoir en subs- 
tance: «les grandes fréquences sont rares pour les événements rares, les 
petites fréquences sont rares pour les événements communs ». 

Il n’y a pas que des événements rares et communs; par raison de conti- 
nuité, on peut concevoir, et il y en a, des événements qui ne sont ni l’un ni 
l’autre et on va progressivement de l’événement impossible, de probabi- 
lité nulle, à l'événement certain, de probabilité égale à un, en passant par 
tous les degrés de la probabilité. 

Si la mesure de celle-ci est possible, il y a des événements qui ont une 
probabilité valant un demi par exemple; pour ceux-là, les petites fréquences 
ne peuvent être ni rares ni communes, Car autrement ils seraient eux-mêmes 
rares OU communs. 

La raison de «non-contradiction » dans le concept introduit donc deux 
exigences ; la première, c’est que le résultat de la mesure ne soit que probable, 
la seconde, c’est que la mesure pour plusieurs événements fournisse, pro- 
bablement encore, des résultats proportionnels aux fréquences. 

Alors le postulat de la mesure doit être compris comme signifiant que 
la quantité 


fie 
| M L 


ne peut que rarement être grande pourvu que m soit assez grand et d'autant 
plus rarement que m est plus grand. 

C'est exactement l’énoncé du théorème de Bernoulli qui apparaît ainsi 
comme ne pouvant pas ne pas exister dès qu’on analyse le simple concept 
de la probabilité et qu’on admet la possibilité de la mesure de celle-ci. 
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Cet énoncé, lorsqu'on passe à l'infini, devient 


Pre NES = 
mPA=0 pour m = © 


avec certitude. 

On voit maintenant le sens exact qu'il faut donner au postulat où le 
mot «limite » prend une signification très particulière qui n’est pas la signi- 
fication analytique habituelle. 


k * x 


Le principe de la mesure possible de la probabilité par la fréquence est 
loin d’être nouveau; il est signalé dans de nombreux ouvrages et il est en 
tout cas à la base de toute la statistique. On doit se demander s'il n’a pas 
constitué le concept premier de la probabilité, concept qu'on aurait cherché 
à rendre plus abstrait, plus dégagé des contingences, principalement sous 
l'influence des idées de Descartes. 

En effet, les tout premiers rudiments de la théorie des probabilités furent 
établis très peu d’années avant la naissance du cartésianisme et ces deux 
faits importants se situent dans une même phase d’une évolution philoso- 
phique continue. 

L'idée d’asseoir toute la théorie sur le postulat de la mesure par la fré- 
quence n’est pas non plus nouvelle mais paraît cependant plus récente. 
Elle semble résulter des réactions contemporaines contre le caractère absolu 
que les générations avaient fini par attribuer, abusivement sans doute, 
au cartésianisme. 


+ * x 


On voit bien maintenant le processus du raisonnement probabilitaire 
dans l'induction scientifique. 

Cherchant à établir les lois d'arrivée (au sens défini ci-dessus) de phéno- 
mènes incertains, il admet d’abord la limite de la fréquence à l'infini ou, 
ce qui revient au même, l'énoncé de Bernoulli, pour les événements simples ; 
il ramène les probabilités des phénomènes complexes à étudier à celles, bien 
connues ou supposées telles, de quelques événements plus simples et, pour 
cela, il suppose certaines liaisons entre les premiers et les seconds, en s'ins- 
pirant éventuellement des indications fournies par l'expérience. 

Ayant grand soin de maintenir permanentes les données primitives, il 
compare les résultats de l'observation des phénomènes à ceux que la théorie 
indique comme devant être attendus et, si la comparaison est satisfaisante, 
il conclut que les liaisons supposées existent réellement. 

Bien entendu, la conclusion n’a d'autre valeur que celle du postulat 
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fondamental, c’est-à-dire qu’elle est d'autant plus vraisemblable que les 
épreuves ont été plus nombreuses. 

C'est le processus classique de toute induction mais il faut faire une 
estimation de la valeur de la conclusion puisqu'on est dans le domaine du 
probable et non pas du vrai. 

En dehors du raisonnement purement philosophique ou purement mathé- 
matique, aucun autre mode de raisonnement n’est accessible à l'esprit 
humain parce qu’il n’est jamais certain des données dont il fait son point 
de départ. 

Pourtant ces données « sont » c’est-à-dire « existent » et il doit finalement 
être possible de les déceler. Il en est bien ainsi mais on ne peut y arriver 
primo que par approximations successives et secundo avec une probabilité 
progressant vers la certitude; c’est, si on me permet cette image, le continu 
de la pensée humaine. 


* 
* * 


Une remarque d’une importance extrême trouve ici sa place en confir- 
mation de l'alinéa précédent. 

Si la probabilité p d’un événement est connue et si on entreprend de 
faire un grand nombre m d’épreuves, on sait, d’après l’énoncé de Bernoulli, 


que l’on obtiendra un fréquence = telle que 


p—e<e<p+e 


avec une probabilité 1 — 0 si petits que soient & et 0 pourvu que m soit 
suffisamment grand. 
Mais si on a: 


p—e< = <p+e, 


on a dans les mêmes conditions 
a a 
— — & — + 
ER D AE 


inégalités qui traduisent l’énoncé inverse de Bernoulli. 

Pour démontrer celui-ci, on fait généralement l'hypothèse que la pro- 
babilité inconnue p peut prendre avec une égale vraisemblance toutes les 
valeurs depuis zéro jusqu’à l’unité. 

Or, la probabilité inconnue «est » une valeur déterminée comprise entre 
zéro et un, par conséquent le résultat doit être valable quelle que soit l’hypo- 


LA CONNAISSANCE PROBABLE 101 


thèse faite sur les valeurs possibles de la probabilité. Une analyse complète, 
par ailleurs assez simple, montre que cette généralisation est licite. En 
d’autres termes, celui qui croit que la probabilité de A est pA = 1/4 et qui, 


après une infinité d'épreuves, constate une fréquence — — 3/4 doit s’incliner : 
m 


il a eu tort d'admettre 1/4 comme valeur de la probabilité. 

On n’insiste pas assez sur cet aspect du théorème de Bernoulli et de 
toutes ses généralisations et c’est cependant la justification de toute la 
théorie des probabilités et de toute induction comme aussi la justification 
de ce que nous avons appelé plus haut le continu de la pensée. 

Cependant, et c’est là encore un résultat remarquable, la même analyse 
montre que, si on est certain de la probabilité p4 — 1/4, une fréquence 
ae 3/4 ne change rien à la certitude initiale si grand que soit m; ainsi il 
ne faut pas voir dans le vrai et le probable deux choses qui s'opposent mais 
deux choses dont la première est la limite de la seconde; l’antinomie entre le 


vrai et le probable disparaît. 
* 


* *k 

D’après cela, le cartésianisme doit-il être définitivement rejeté ? Qu'on 
se garde bien de cette conclusion absolue; le cartésianisme n’a rien à voir 
ni dans le choix des données ni dans l'interprétation des résultats, domaines 
dans lesquels une saine imagination est plutôt de mise, mais il doit conti- 
nuer à régir tout le raisonnement qui conduit des hypothèses aux conclu- 
sions. Il est la seconde phase de la recherche de la vérité, la première étant 
celle du choix des hypothèses et la troisième étant celle de l'énoncé de 
conclusions. 

Ke 

Je voudrais, pour terminer cet exposé, montrer quelques-uns des résul- 
tats principaux auxquels on est conduit en adoptant le postulat de la mesure 
par la fréquence; j'aimerais surtout faire apparaître la valeur didactique 
de la méthode et la portée pratique de ses conséquences : malheureusement 
l'espace me manque ici et je me bornerai donc à une simple énumération: 

La probabilité p 4 d'un événement À demande à être précisée par l'indica- 
tion des données D qui doivent accompagner chacune des épreuves et elle 
pourra alors s’écrire p4:p par exemple. 

La notion des « données » correspond à la notion de collectif mais est 
plus efliciente. 

Les données doivent rester permanentes dans toutes les formules et 
dans le cours de tout le raisonnement. 
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Les notions de probabilités objectives et subjectives correspondent res- 
pectivement à des données réelles et à des données hypothétiques, mais la 
théorie ne s’en trouve pas affectée. 

Si, au cours du raisonnement, on est amené à introduire une hypothèse 
supplémentaire, celle-ci doit être compatible avec les données primitives ; 
il en résulte qu’un événement certain (ou impossible) reste certain (ou 
impossible) dans toutes les hypothèses. 

La probabilité a posteriori n’est autre que la probabilité moyennant 
une hypothèse (ou une donnée) complémentaire et il n’y a donc pas de diffé- 
rence entre la théorie des probabilités a priori et celle des probabilités 
a postertort. 

La considération de l’événement complexe AB conduit à la formule 
générique du produit 

PAB — PAPB:4A — PBPA:B 
et plus généralement 


PABC...Er = PAPB:APC:AB - :: PF:ABC...E- 


La notion habituelle de la dépendance manque de précision; il faut 
lui donner une signification mathématique fournie par la condition 


PAPA FE ou PB = PB:A 


qui indique l'indépendance de À et B; dans ce cas P4p = PAPB: 

La définition précédente est insuffisante dans le cas d’un complexe 
formé de plus de deux événements; on est amené à introduire les notions 
de dépendance relative et de dépendance absolue; dans ce dernier cas, on a 


DABGIAES PAP8Pc .. 


La formule du produit n’a de pertinence qu’à propos d’un événement 
complexe AB tel qu’une épreuve sur l’un des événements À ou B 
constitue aussi une épreuve sur l’autre. 

Des événements À et B qui doivent faire l’objet d'épreuves distinctes 
pour À et pour B sont dits séparés. Ce n’est que par une extension de la 
notion de complexe qu’on peut considérer un événement ABC ... E formé 
de plusieurs événements séparés; dans ce cas, la formule du produit a 
toujours la forme simple 


PABC... — PAPBPc :.: 


Les événements ABC formant un complexe peuvent faire l’objet 


d'épreuves distinctes; la formule du produit applicable est alors celle des 
événements séparés. 


De 7) 7 Pr En À 3 À { 
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Les formules et les principes relatifs aux événements discontinus s’éten- 
dent sans peine aux variables aléatoires. 

La loi de probabilité des variables corrélatives x,,x, ..… zh est une 
certaine fonction de ces variables; on peut en déduire la loi de probabi- 
lité de chacune des variables prise isolément mais l'inverse n’est en prin- 
cipe pas vrai; on peut aussi en tirer la loi de probabilité d'une ou plusieurs 
variables moyennant la donnée d’une ou plusieurs autres. 

La dépendance entre variables aléatoires doit être envisagée au point 
de vue analytique et au point de vue stochastique: dans le second cas, il 
faut aussi introduire les indépendances relatives et l'indépendance absolue. 

Des variables aléatoires sont en dépendance stochastique sauf si les lois 
de probabilité satisfont à des conditions analogues à p4 — Ppa:p ... etc. 

Une épreuve sur une aléatoire x, prise parmi les variables corrélatives 
Li: Lo -.: % détermine aussi une valeur pour chacune des autres; lorsque les 
variables +,, 2 ...x, doivent nécessairement faire l’objet d'épreuves dis- 
tinctes, elles sont dites séparées. 

Les variables séparées se comportent comme des variables absolument 
indépendantes. 

Les variables d’un complexe de corrélatives peuvent aussi être éprou- 
vées séparément, elles se comportent comme des variables séparées quelle 
que soit la loi du complexe. 


Toute fonction u — f(x, % ...*,) de n variables aléatoires est aussi 
une aléatoire et on peut déterminer sa loi de probabilité ; celle-ci est différente 
selon que les variables +,, 2, ... x, sont traitées comme variables corréla- 


tives ou séparées. 

Toute fonction de variables aléatoires peut aussi faire l’objet d'épreuves 
distinctes des épreuves destinées à fixer les x,, x ... %,: elle se comporte 
alors comme une variable stochastiquement indépendante de toutes celles 
dont elle est fonction; cette dernière propriété élimine l’importante objec- 
tion de logique formelle que l’on adresse à l'étude des erreurs de mesures 


d'une série d’inconnues en liaison analytique. 
J. H. BAPTisT. 


PROBABILITY IN LOGIC, MATHEMATICS 
AND SCIENCE 


1. INTRODUCTORY REMARKS 


It is accepted that when words are taken from everyday language and 
used in a particular field of discourse their meaning should be made as 
unambiguous and exact as possible. For example, the terms work, action, 
energy, are given precise meanings in physics; and group, function, imagi- 
nary, in mathematics. This precision is not arrived at immediately, for 
new concepts and ideas need to settle before they assume definite shape. 
With these firmer outlines it is, moreover, often possible to distinguish variants 
from the same source; in particular, the dualism between the mathematical 
and the physical (for example, between the entity obeying a certain differ- 
ential equation and the particle causing a track in a Wilson cloud chamber) 
has long been recognized. To say that the concept of probability has not 
been immune from this dialectic phenomenon is rather an understatement, 
for the emergence of one or more precise technical meanings for probability 
has historically been coloured by controversy, which has by no means 
ended. Confusion still arises from the existence of these different meanings 
for probability in different fields of discourse, and it is my purpose to survey 
and if possible to clarify these 1. 

In my view the technical meanings and uses of probability can be classi- 
fied under three broad headings, the difference between variants ? under 
any one heading being less fundamental. These three headings relate to 
the three fields of logic, mathematics and science, and to the corresponding 
uses of probability in 


(i) the general theory of inductive inference, 
(ü) the axiomatic mathematical theory of probability, 
(ii) the description and-theory of statistical phenomena. 


* Cf. the discussion by E. NAGEL (Probability and Non-demonstrative Inference, p. 485) 
and R. CARNAP (The Two Concepts of Probability, p. 513) in Philosophy and Phenomeno- 
logical Research, 5, 1944-1945. Added in proof: cf. also the section on probability in 
BERTRAND RussEeLL’s recently published book Human Knowledge. London 1948. 

? No attempt is made here to list all these variants; more detailed accounts will be 
found in the published literature or in a book by I. J. Goo» shortly to be published: 
Principles of Probability and of Weighing Evidence. London: Griffin. 
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I have put (i) first because of its all-embracing character, but its very 
generality is a warning of difficulties, and it will be more convenient to 
discuss the narrower aspects of probability referred to in (ii) and (ii) before 
their relation to (i) is examined. 


2. THE AXIOMATIC MATHEMATICAL THEORY OF PROBABILITY 


As the theory of probability began from a discussion of the results of 
games of chance, that is, of particular examples of statistical phenomena, 
axioms emerging from the historical theory should in particular be appro- 
priate for such applications, and this may be used to formulate them. The 
simplicity and symmetry of gambling apparatus like dice, roulette wheels 
or cards led to the idea of equal probabilities or chances, in the sense that 
the different elementary events were supposed (at first without logical 
precision) to occur equally frequently ‘in the long run’. With the existence 
of such apparatus in mind, it has often been the practice to arrive at the 
appropriate axioms by defining mathematical probability, at least to begin 
with, as a number p associated with the number / of eventualities of a certain 
type in a class of eventualities of total number m. 

At one time I favoured this method of exposition 1, but while the method 
of arriving at the axioms dœæs not of course affect the mathematical theory 
if the axioms chosen are the same, or equivalent, it has some bearing on 
its application, and I now prefer, in setting up the axioms with a view to 
application to statistics, to adopt a somewhat more direct relation with 
frequency. Thus if there are X, and only k, mutually exclusive eventua- 
lities À, of the type À, one of which must occur on a * trial ”, the associated 
probabilities p, are to correspond to empirical frequency ratios r,/n obtained 
in n trialss Hence they should be numbers between 0 and 1 satisfying 


Pi +Pat Pr =], 


and further from the frequency correspondence we require for the probab- 
ility associated with À; or À; a correspondence with (r; + r;)/n, leading 
to the additive axiom?. The additive axiom also follows from the first 
approach, if p is defined as //m, but this is because the use of //m in contrast 
with some other function of {/m already implies the additive axiom, as of 
course it should if we ultimately have the frequency interpretation in mind. 


1 See $ II of The present position of mathematical statistics. J. Roy. Statist. Soc. 103 


(1940), 1. Re! 
2 Cf, the discussion in Chapter 13 (“Statistics and probability ”) of CRAMER’S book 


Mathematical Methods of Statistics. Princeton 1946. 
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On either approach the further multiplicative axiom, which amounts 
to a definition of conditional probability, follows. That is, if the even- 
tualities A, are composite ones of the symbolic product type B;C;, the 
first approach gives the identity 


Um = (im) QD 
where { represents the number of eventualities of the type B;C, (i.e. summed 
over j), and l/{ is defined as the conditional probability of B;C; with refer- 
ence to the total class B;,C, (i.e. B; is given). In the second approach, 
if in addition to the sara frequency ratio r;;//n, we have the (rEquEn er 
ratio r;/n for the eventuality B;C, we may write 

rÿln = (rl) (riÿlni) 

and the corresponding relation between the abstract p-numbers defines the 
conditional probability of B;C; when B; is given. 

The direct frequency approach to the axioms has the further advantage 
over the first method that the latter makes use of the idea of probability 
numbers being equal to simple fractions (e. g. !}, for getting ‘ Heads” with 
a tossed coin), and this is strictly a separate idea associated with the sym- 
metry properties of some physical systems. 

The above elementary axioms have the limitation that they cannot 
be applied without extension when the number of eventualities À, consid- 
ered is no longer finite; this extension is convenient not only for dealing 
with variables having a continuous range, but also for demonstrating the 
relevance of the axioms and the consequent theory when we compare its 
theoretical predictions with the intuitive ideas about frequency ratios 
which assisted the setting-up of the axioms. 

In this generalization !, based on the mathematical theory of measure, 
the additive probability function of the set A, becomes a completely add- 
itive function, such that the probability of any sum of a finite or enumerable 
sequence of sets is uniquely defined with a meaning consistent with the 
elementary finite theory. 

After the mathematical theory has been set up, its relevance is a matter 
for general consideration, but in particular its theorems on conceptual fre- 
quency ratios in an increasing sequence of independent trials (independent 
being now precisely defined in the theory from the multiplicative axiom) 
are tests of its appropriateness. We obtain? a probability 1 of the conceptual 
frequency ratio r,/n tending to the probability p,, or of rilr; tending to the 


: See A. KozmoGororr, Grundbegriffe der Wahrscheinlichkeitsrechnung. Ergebnisse 
der Mathematik 2, No. 3. Berlin 1933. 


? The theorems as here stated belong to the generalized theory, a point once stressed 
to me in conversation by Prof, Herbert RoBBins. 


dé 
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conditional probability p,;/p; (this second result, which is not so often noted, 
readily follows from r;;/n tending to Pi and rjn—p;). While the corres- 
pondence between a probability 1 and-a frequency ratio has become more 
sophisticated in our genéralized mathematical theory, it is natural to allow 
the correspondence between a probability 1 and certainty in the finitely 
additive theory to extend to a correspondence with ‘almost certainty ? 
in the completely additive theory. This correspondence entirely fits with 
the required interpretation; it is not ‘ certain’, but ‘ almost certain ? that 
an ideal coin with probability 1/, of giving heads will give the proportion 
lJ Of heads in the long run. To make the frequency interpretation self- 
contained, we finally introduce the postulate that ‘almost certainty’, 
while logically different from certainty, is observationally equivalent. 

While attention is being focussed on the axiomatic theory, this last 
postulate is irrelevant, but it is included here for completeness as part of 
the discussion on the correspondence of the axioms with the frequency 
interpretation. The interpretation of probability theory in another more 
subjective way will be considered presently, but advocates of the subjective 
interpretation sometimes tend to underestimate the close historical and 
practical dependence the axiomatic theory in its usual formulation has on 
the frequency and statistical interpretation. 

Two remarks may perhaps be made to support this contention. The 
positive character of probability numbers, which corresponds to the positive 
character of observed frequencies, is essential to the proofs of the laws of 
large numbers. It is to some extent (though admittedly the theory must 
be handled with more care) possible to generalize the axioms of the mathe- 
matical theory to include negative probabilities without affecting the 
addition and multiplication rules; this generalization has seemed advisable 
as a basis for negative probabilities which have appeared in recent physical 
theories 1, But while such a generalization may sometimes prove mathe- 
matically convenient, it is still only the positive probability numbers which 
can have a direct frequency interpretation and which thus retain a special 
significance. 

The second remark is that the additive axiom for probabilities is an 
inevitable one if the probabilities are to have a direct correspondence with 
frequency ratios, but if this correspondence is not made the basis of the 
axiom but is replaced by a subjective interpretation of probability, the 
additive axiom becomes much more of a convention ?. Such a convention 


1 See Negalive probability. Proc. Camb. Phil. Soc. 41 (1944), 71. ; £ 
3 See, for example, H. JEFFREYS, Theory of probability. Oxford 1939, or E. SCHRÔ- 
DINGER, The foundation of the theory of probability. Proc. Roy. Irish. Acad. 51A (1947), 


51 and 141. 
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may be convenient in order to link with frequency theory or on simplicity 
grounds, but in my view it stresses the logical distinctness of the frequency 
theory and the more subjective approach, and also indicates the greater 
lack of uniqueness in the subjective theory. 


3. THE DESCRIPTION AND THEORY OF STATISTICAL PHENOMENA 


Since the orthodox mathematical theory of probability has been so 
closely linked with the frequency or statistical interpretation, it should 
obviously be appropriate as a mathematical model of actual statistical 
phenomena, and, incidentally, appears simpler and more rigorous than 
any alternative statistical theory yet put forward (for example, the one 
based on von Mises ‘infinite Kollectiv’). The practical success of 
statistical theories in describing observational data in one scientific domain 
after another is well summarized in Schrôdinger’s arcticle ! The Statistical 
Law in Nature, and needs no further justification here. The precise probab- 
ility meaning of concepts in modern quantum theory I still regard as 
obscure, but their dependence in some way on probability and statistical 
ideas is not doubted ?. 

What, however, should be made clear is the relation of statistical phe- 
nomena and statistical data with the mathematical theory. There is the 
same dualism here as in science generally between the theoretical concepts 
and the things perceived. We assume as a hypothesis that the facts are 
covered by the general theory, and as in other scientific theories we cannot 
be sure that the hypothesis is true, only learn by experience when the 
hypothesis appears approximately true to a sufficient extent to be useful. 
This viewpoint on the scientific status of the concept of statistical probab- 
ility I have summarized previously. Statistical probabilities envisaged 
in this way may be termed objective in the sense that while we cannot 
say they exist exactly in the real world they exist outside ourselves in the 
theory, and can ideally be measured. The criticism has sometimes been 
made that this ideal measurement does not exactly correspond to anything 
possible in practice, since it involves an infinite series of trials, but this 
kind of criticism is not peculiar to statistics. Theoretical methods of 
measuring other quantitative scientific concepts will be found to be only 


1 Nature (London), 153 (1944), 704. 
? Cf H. REICHENBACH, Philosophic Foundations of Quantum Mechanics. California 1946 : 


J. E. MoyaL. Quantum Mechanics as a Statistical Theory. Proc. Camb. Phil. Soc. (to he 
published). 


® Statistical probability. J. Amer. Stat. Ass. 31 (1946), 553. 
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approximately realisable, owing to the inevitable idealisation involved in 
the theory. 

On the above view the status of statistical theory is similar to that of 
other scientific theories. The question remains: what logical justification 
have we for making use of it? This question is well-known to be one of 
the most perplexing in science, and it would be unfair to the statistical 
theory here summarized to condemn it for not including an answer. It 
has, however, sometimes been claimed that the answer is provided by the 
wider subjective theory of probability. I do not agree with this, but I 
do agree that the meaning, value, and limitations of this subjective theory 
are worth examination. 


4. PROBABILITY IN THE GENERAL THEORY 
OF INDUCTIVE INFERENCE 


In the subjective theory of probability a different correspondence or 
interpretation of the mathematical theory is set up, and probabilities are 
interpreted as ‘ degrees of belief”. It is questionable whether numerical 
measures of degrees of belief can be assigned to all propositions we may 
wish to consider, but there seems no doubt that you or [I may consider 
some propositions more likely than others without implying a frequency 
or statistical interpretation for our assessments. I have mentioned earlier 
that there is in most approaches of this kind a certain amount of convention, 
especially in choosing degrees of belief to be between 0 and 1 and on a 
scale such that they obey the addition axiom for mutually exclusive events. 
Among these approaches T am inclined to favour most Ramsey’s approach ! 
by way of expectation. This has the advantage of linking up immediately 
the probability laws from our present standpoint with those originally 
discovered in connection with games of chance and stated in $ 2, but it 
does not necessarily restrict probability to its statistical sense unless expect- 
ation is similarly restricted. It is of interest that Bayes? also defined 
probability in terms of expectation; there appears to be no very clear 
evidence, however, to what extent he intended this to be a wider definition 
than the frequency one. 

This association of probability as degree of belief with expectation 
(e. g. with the amount of money we would wager) determines the scale 
naturally. For if the occurrence of either of two events means my obtaining 


F. P, Rawusevy. The Foundations of mathematics and other logical essays. London 1931. 


1 
2T, BAYES. Phil. Trans, 53 (1763), 370. 
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an amount À, my expectation from one event will be greater or less according 
to my degree of belief being greater or less. If we call B, my expectation 
for the first event, we may write 


B'EP/A 


and take P, as the probability. It follows that certainty is denoted by 1, 
impossibility by 0, and further for the expectation of one or other of two 
mutually exclusive events, we should have 


B = B; + B s 
whence 


PIS D ARR 


Ramsey showed that the usual rules of probability follow. We have thus 
reached the conclusion that if you (or I) assign probabilities in this way, 
they should for logical consistency obey the usual probability rules. We 


come next to the further point made by Ramsey (op. cit, p. 192); it does. 


not follow that you, while agreeing with the rules, will necessarily agree 
with my probability measures, even if you consider your beliefs on the 
same data. The issue here is fundamental, for Jeffreys in his theory of 
probability has stated that on a given set of data a probability is unique. 
The uniqueness of a probability in Jeffreys’ theory has to be accepted as 
an additional axiom, and Jeffreys has noted 1 that without it initial probab- 
ilities might logically be assigned in any way. Jeffreys introduces it to 
Eink his theory with the general problem of induction, which is then form- 
ally solved in terms of these uniquely-determined ‘ rational degrees of 
belief ?. 

My comment on this is that however attractive as a formal solution 
of the problem of induction, it remains formal because any unique degree 
of belief postulated in the theory remains undetermined. There is no 
guarantee that your degree of belief, or mine, will be identical with it; 
not even any guarantee, as Ramsey observed, that they will agree with 
each other. We thus have this bifurcation of the theory of probability 
when treated as a theory of degrees of belief : either we regard it in Jeffreys’ 
sense, in which case the probabilitites in it are undetermined, or else we 
agree with Ramsey, (cf. also Good, op. cit.) to insert in the formulæ our 
own degrees of belief; in which case the problem of induction reappears, 
for whose beliefs are to be believed? Essentially the same difficulty has 
been raised by Eddington in the following remark ? 


1 Probability and scientific method. Proc. Roy. Soc. A 146 (1934), 9. 
? New Pathways in Science. Cambridge 1935, p. 112. 
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One difliculty in employing strength of belief as a measure of probability 
is that an expectation or belief has partly a subjective basis. We have agreed 
that it depends (and ought to depend) on the information or evidence supplied ; 
but in addition the strength of the expectation depends on the personality 
of the man who weighs the evidence. We try to remove this subjective element 
by saying that the true probability corresponds to the judgement of a ‘right 
thinking person ’; but how shall we define this ideal referee Apart from 
the obvious definition of à right-thinking person as ‘ someone who thinks 
as I do’ (which is probably the definition at the back of our minds) there 
seems to be no way of defining his qualities. 


Whatever interpretation we place on these degrees of belief, the logical 
consistency of the theory remains, (that is, consistency among the beliefs 
of some individual, whether he be hypothetical or actual). In Jeffreys’ 
statement 1 on his theory, 


The present theory does not justify induction, I do not consider justif- 
ication necessary or possible; what the theory does is to provide rules for 
consistency, 


I presume he implies also consistency between individuals, for compare 
his remark ? 


If the rules of the theory are followed, anybody will get the same answer 
given the same evidence, 


but the possibility or desirability of consistency in this sense is, as we have 
just seen, not generally accepted. Jeffreys goes some way to achieve it 
by suggesting rules for evaluating ‘ prior probabilities ” in simplified sit- 
uations, but the use of these numerical rules in actual problems seems to 
me misleading through over-simplification. It should be noticed that the 
simplification involved is different in kind from that used in ordinary scient- 
ific (e. g. statistical) theories, for with the latter the weighing of non-numer- 
ical factors is still open to us before our final inductive conclusions are 
made, whereas this is not so if our final induction is supposed to be already 
contained in the numerical] formula. This kind of criticism I do not consider, 
as Jeffreys has suggested %, ‘to be arguing for indefiniteness as desirable 
in itself’, but as arguing for indefiniteness somewhere in our representa- 
tion where indefiniteness exists, and for definiteness where definiteness 1s 


possible. : 
I have noted two alternative interpretations of probability as a degree 


1 Theory of probability, $ 8.8. + 
: See discussion on my paper The present position of mathematical statistics, loc. cit. 


3 Probability and Scientific method, loc. cit., p. 16. 
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of belief. Of these two, I am inclined to be more in sympathy with the 
one which does explicitly admit that if I am to use the theory I am obliged 
to insert in the formulæ my own degrees of belief. It is especially in view 
of the frankly personal character the probabilities then assume in the 
theory, that I believe it convenient in practice, and indeed an advisable 
scientific discipline, to keep deductive manipulations of statistical probab- 
ilities (which we have seen are logically separate concepts with values 
theoretically unique and independent of our beliefs about them) distinct. 

It is of course true that the theory of degrees of belief can consistently 
incorporate statistical probabilities in its general symbolism, but they 
remain a particular class of probability to which it is convenient to give 
a special name, e. g. chances1. These chances, since they are in common 
with other scientific concepts logical fictions, do not correspond with actual 
degrees of belief, but depend on assumptions which render the corresponding 
degrees of belief also hypothetical. It is correspondingly important that 
statisticians should recognize that statistical theory is a deductive theory 
the relevance of which to the real world rests on induction. This would 
ensure that the various statistical theorems on estimation, testing hypo- 
theses and confidence intervals are always recognized as part of this deduc- 
tive theory, with the relevance of these or other theorems to each particular 
problem still to be considered. 

But precisely how such relevance is to be considered must in my view 
remain, at least partly, with the individual, who will not be unmindful of 
the purpose of his investigation ?. It is arguable that a correct judgement 
on the most useful procedure in any situation should itself be an induction 
based on experience, and certainly my own practice, like that of many 
other statisticians, has evolved in this way. 

M. S. BARTLETT. 


* Cf. Probability and chance in the theory of statistics. Proc. Roy. Soc. A 141 (1933), 518. 
? Cf. the remarks towards the end of his paper by F. J. ANscoMBE, The Validity of 
Comparative Experiments, J. Roy, Statist. Soc. (to be published). 
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Summary 


Historically the emergence of a precise technical meaning for probability, as distinct 
from its vague popular useage, has taken time ; and confusion still arises from the concept 
of probability having different meanings in different fields of discourse. Its technical 
meaning and appropriate rules are surveyed in the fields of logic (in the general theory 
of inductive inference), mathematics (in the axiomatic theory of probability), and science 
(in the description and theory of statistical phenomena), and the relation between these 
three aspects of probability theory discussed, — M. S. B. 


Résumé 


Au point de vue historique, on constate qu’il a fallu passablement de temps pour que le 
terme de probabilité acquière un sens technique précis, distinct du sens ordinaire vague ; 
d’ailleurs des confusions se produisent encore du fait que le concept de probabilité a des 
significations différentes dans différents domaines d’application. On examine le sens tech- 
nique de ce terme et ses règles d'emploi dans le domaine de la logique (dans la théorie 
générale de l'induction), des mathématiques (dans la théorie axiomatique des probabilités), 
dans les sciences (dans la description et la théorie des phénomènes statistiques) et on discute 
la relation de ces trois aspects de la théorie des probabilités. 


Zusammenfassung 


Geschichtlich war es so, dass es lange Zeit brauchte, bis der Wahrscheinlichkeits- 
begriff einen technisch genauen Sinn — im Gegensatz zu dem der ihm im gewôühnlichen 
Sprachgebrauch zukommt — annahm. Missverständnisse entstehen noch dadurch, dass 
der Wabhrscheinlichkeïitsbegriff in den verschiedenen Anwendungsgebieten eine unter- 
schiedliche Bedeutung hat. Der Verfasser überprüft Sinn und Zweckmässigkeit des 
Begriffes in den verschiedenen Gebieten, so in der Logik (allgemeine Theorie der Induk- 
tion) in der Mathematik (axiomatischer Aufbau der Wahrscheïinlichkeitstheorie) in der 
Wissenschaft (Beschreibung und Darstellung statistischer Erscheinungen). Am Schlusse 
werden die drei sich daraus ergebenden Aspekte der Theorie besonders besprochen. 


BROWNIAN MOTION, DYNAMICAL FRICTION 
AND STELLAR DYNAMICS 


1. INTRODUCTION 


As is well known, the phenomenon of Brownian motion has been the 
starting point of extensive mathematical investigations on the theory of 
probability and random variables. However, the foundations of the physical 
theory itself have not been the subject of equally critical analyses. Indeed, 
it would appear that the physical theory in the form currently accepted has 
certain very serious limitations. It is the object of this essay to indicate 
the nature of some of these limitations and to illustrate from an example 
in stellar dynamics how these limitations can, in some measure, be overcome. 


2. THE BASIC ASSUMPTIONS OF THE PHYSICAL THEORY 
OF BROWNIAN MOTION 


The theory of Brownian motion is concerned with the irregular, perpetual 
motions of colloidal particles in suspension in a liquid. It is known that 
these motions have their origin in the collisions which the colloidal particles 
suffer with the molecules of the surrounding fluid. Under normal conditions, 
in a liquid, a Brownian particle will suffer about 10721 collisions per second. 
Since each of these collisions can be thought of as producing a kink in the 
path of the particle, it is evident that we cannot hope to follow the path 
of a particle in any very great detail : to our senses, the details are impossibly 
fine. A statistical method of approach is clearly indicated though it must be 
understood that in the last analysis we must trace our discussion to the 
individual collisions themselves. It may be stated, already here, that it is 
in this last respect that current theories of Brownian motion fail. 

Reduced to its essentials, the theory of Brownian motion derives from 
the following set of assumptions : 

The motion of a free particle (i. e., one in the absence of an external field 
of force) is assumed to be governed by Langevin’s equation 


du 
dt 


= —qu + A(b, | (1) 
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where 4 denotes the instantaneous velocity of the particle. In w riting this 
equation, the assumption has been made that the influence of the surround- 
ing medium can be split up into two parts: À systematic part, — mu, which 
represents the operation of dynamical friction and à fluctuating part, A(), 
which is characteristic of Brownian motion. 

Regarding the frictional term, — qu, it is assumed that it is governed 
by Stokes’ law according to which the frictional force decelerating a spherical 
particle of radius a and mass m is given by 6xar»u/m where » denotes the 
coefficient of viscosity of the surrounding liquid. In other words, 


Grar 
m 


mr (2) 
As for the part A(1), the following principal assumptions are made: (i) À (f) 
is independent of ut and (ii) A (?) varies extremely rapidly compared with uw. 
The second of these assumptions implies that time intervals 4{ exist such 
that during 4{ the changes in u to be expected are very small, while during 
the same interval A(f) may undergo a very large number of fluctuations. 
Alternatively, we may express this assumption by the statement that, 
though u(l) and u({ + 4) are expected to differ by a negligible amount, 
no correlation between A(f) and A(t+ 41) is expected. Considering then 


the net increment in velocity 
t+ At 


B(41) - fau ; (3) 
t 


which a particle experiences (due to random fluctuations) during an interval 
At, we assert (i) that the increments between the successive intervals 
(4, t + 4t) and ({ + 4t, 1 + 4h + 4Àt) have no correlation and (ü) that 
the probability of occurrence of different net increments during an inter- 
val 4f is given by 
1 — | B(Ar) ?/4qAt & 
W(B[A]) = 0e 

where q is a certain difjusion coefficient (in EU space) related to the 

frictional coeflicient, », by 
KT eu 
(5) 


En 


where k is the Boltzmann constant and T is the absolute temperature. 


1 We shall indicate later the generalizations required when A(t) depends on w (cf. 
eq.[13] below). 
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3. À DISCUSSION OF THE BASIC ASSUMPTIONS OF THE THEORY 
OF BROWNIAN MOTION 


The basic assumptions of the theory of Brownian motion which we 
have set out, barely, in $ 2 emphasize the drastic nature of these assumptions : 
indeed, they give one the impression of being largely arbitrary. The arbitrary 
character of the assumptions is apparent, already, in the separation of a 
systematic from a fluctuating part in the acceleration in Langevin’s equation 
which, by implication, supposes that we can divide the phenomenon into 
two parts: a part in which the discontinuity of the events taking place is 
essential and a part in which it is inessential and can be ignored. In view 
of the discontinuities in all matter and all events, this is a prima facie, 
adhoc assumption. But, granting this separation, we next inquire into the 
meaning and justification of the assumptions underlying equations (4) 
and (5). 

The justification for the form of the distribution function (4) is derived 
from the theory of random flights: 

In the problem of random flights, a particle suffers a sequence of displa- 
cements, r;(i —1,2,...) the magnitude and direction of each of the 
displacements being governed by a probability distribution. After N such 
displacements, the position of the particle will be given by 


N 
R— r';. (6) 

i=1 
We ask for the probability distribution of R. While it is not difficult to 
write down the formal solution of the problem !, the case of greatest interest 
is when N is large and the different displacements, r;, are governed by the 


same spherically symmetric probability distribution, r(r). In that case, 
the distribution of R is given by? 


3 \ —3|RE/2NR 
where ee 
r? -fro r° dr, (8) 


is the mean square displacement to be expected on any particular occasion. 


? Cf. e. g., S. CHANDRASEKHAR, Rev. Mod. Phys., 15, p. 1, 1943 ticul 
Chap. I, $ 4, of this paper). à A CR 
? S. CHANDRASEKHAR, 0p. cit., eq. (93). 


La 
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If we suppose that the particle experiences n displacements per unit 
time, the net displacement, R, after an interval 41 during wbich a very 
large number of displacements take place, is given by 

1 — |R}?/4qAt 
W(R) = ——— 0e 
(4x q At)" 


where we have written 


, (9) 


g=>nr. (10) 


Returning to the problem of Brownian motion, we recall that intervals 
of time 4f exist during which a particle, though it suffers a very large number 
of collisions with the molecules of the surrounding fluid, experiences only 
«infinitesimal » increments in the velocity. During such an interval of time 
the net random increment in velocity, B(40), which the particle will expe- 
rience, is the resultant of the effects of a very large number of collisions, each 
of which causes a certain ‘minute’ acceleration du. The appropriateness of 
the problem of random flights to determine the probability distribution 
of B(4b) is apparent. Indeed, we can write this directly from (9) if we 
interpret q by 


q = snlôur, (11) 


where n is the number of collisions per unit time between a Brownian 
square increment in velocity of a particle, per collision. In this fashion, we 
recover the form of the distribution function (4). 

Turning next to the relation (5) between q and 7, we introduce conside- 
rations of the following type: 

Let the distribution of velocities among the Brownian particles at a 
particular instant of time { be given by W(u,t). After a time 4f{ the distri- 
bution function will have changed, as during such an interval, a particle 
with a velocity u, for example, will have suffered an increment of velocity 


du — — qu 4t + B(4b, (12) 


and the probability of such an increment will be governed by (cf. eq.[4]) 


1 
y(u; du) = Gr q ane *P — | du +quAt— grad,, q4t 2} [Ag At, (13) 


where we have slightly generalized (4) to allow for a dependence of g on the 
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velocity. We therefore expect that the RARE function W(u,t + At) 
at time { + dt will be given by 


+00 


Wu,t + 4 = [tu 40.9 p(u — Au; Au) d(Au). (14) 


—7Q 


We may parenthetically remark that, in expecting the integral equation 
(14) between W(u, { + 41) and W(u, ?) to be valid, we are actually supposing 
that the course which a Brownian particle will take depends only on the 
instantaneous values of the physical parameters and is entirely independent 
of its whole previous history. In probability theory, a stochastic process, 
having this property, namely, that what happens at a given instant depends 
only on the state of the system at that instant, is said to be a Markofj 
process. We may describe a Markoff process by the statement that it rep- 
resents «a gradual unfolding of a transition probability » in exactly the same 
sense as the development of a conservative dynamical system can be des- 
cribed as «the gradual unfolding of a contact transformation » (Whittaker). 
That we should be able to picture Brownian motion as a Markoff process 
is reasonable : its ’reasonableness’ arising, principally, from the circumstance 
that in equation (14) we can consider intervals 4f during which a very large 
number of collisions take place and which, nevertheless, change the distri- 
bution of velocities among the particles only insensibly. With this under- 
standing, we can expand W(u,{ +41), W(u — Au,t) and y(u — Ju, Au) 
in equation (14) by Tayler series and obtain 


Wu, ti) + a 4t + O(4E) 


o2W o2W 
Lw # Ne Au PRE 
. “ su CET Le u; au+5 ) Ou aide Fou E 


Le] 
x [rt — ) Gi du += Ss dé +) op Ju, Au, 0e 
: LUS A due Lo One A 
1<] 
EE d(Au,) d(Au) d(Aus) , 
or writing 
+oo 
3 | Auvtus  aG etc., (16) 


—00 


* 
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we have 
oW 
“y A+ (4) 
o? o? 
= — W : W-—— Au JE 
De Ou, Jui “+3 ou a der Lérx ou Fu D 
Le 
oW oW Oo ra ) NE 
Er sn on Ju”; +ÿ e Au; Au; 
ou; ou; ou; Ou; 
ii 
o? RU 
+ 5), + Mrs LE du; + O(4u; Au; Auy) , (17) 
ER | 


where the remainder term involves the averages of the quantities 
Au’, AdufdAu, and Au;du;du  (ij,k=1,2,3), 


and similar larger combinations. Equation (17) can be written more con- 
veniently in the form 


oW 0 Ses 
—— At AB =): W 4 i 
ot ARRQUTE . ERA ui) 
APRES o2 
du; ——— (W du; Au; 
+5) ou AUTRE ) pe JEU 
LEE | 
+ O(Au; Au; Au) . (18) 


This is the Fokker-Planck equation in its most general form. 
For the transition probability (13), 


Au = — (qu — grad,, q) dt; Au = 2q4t  (i—1,2,3), (19a) 
Au;au; = O(4P) and Adu*Au; — O(4F) etc. (19b) 
Substituting these in equation (18), we obtain 
oW e) 2) 
— 4 1 2x W—W 
sn 0 (AP) _ Ou, (nu du, 
1 


1 


2 
VE (Wg) + O(4P). (20) 
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Now, passing to the limit df — 0, we have 


oW û Es | 
REIN Cle Re 21 
Lou, (uv RSR arte Ga 
OT 
au = div ,(quW + q grad,, W). (22) 


According to this equation we may visualize the motions of the representative 
points in the velocity space as a process of diffusion in which the rate of 
flow across an element of surface do is given by 


— (q grad, W+ Wu) - 14, do (23) 


where 1, is a unit vector normal to the element of surface considered. It 
should, however, be understood that this visualization ceases to be valid 
when time intervals less than 4f are considered. 

So far we have not restricted qg and #7 in any manner. We now assert 
that a Maxwellian distribution of velocities must be invariant to the underlying 
stochastic process and that any arbitrary initial distribution of velocities must 
eventually become Maxwellian. In other words, we require that 

5J —mlu?/2kT 
m je lu?/ (24) 


W(u) — GE 


satisfies equation (22) identically ; this condition, as may be readily verified, 
is equivalent to imposing the relation (5) between q and 7. 

In some ways it is remarkable that we can obtain as complete a specifi- 
cation, as we have, stochastic process characteristic of Brownian motion, 
without, at any point, having been required to analyze the mechanics of 
the collision process itself; but it emphasizes the fact that we have in effect 
side-stepped the essence and core of the problem. If the phenomenon of 
Brownian motion is, what it is generally claimed to be, namely, that is an 
illustration on the macroscopic scale of the basic picture of molecular 
collisions from which kinetic theory of gases derives, then we should at least 
have expected that the characteristic features of the theory depend in an 
essential way on the kinetics of the collisions. To the extent, this is not the 
case, to that extent the theory fails ; and it is this failure, more than anything 
else, which gives to the physical theory the character of being ad hoc. 
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À. STELLAR ENCOUNTERS AS AN EXAMPLE 
OF BROWNIAN MorTIioN 


The discussion of the physical foundations of the theory of Brownian 
motion in the preceding sections has disclosed certain inherent limitations 
in the theory. The limitations are nowhere more serious than in the cireum- 
stance that the coefficients q and 7 are not derived from a microscopie 
analysis of the individual encounters. It is, therefore, of interest that stellar 
dynamics provides a case of Brownian motion in which all phases of the 
problem can be explicitly analyzed. 

In stellar dynamics, one of the fundamental problems is to incorporate 
in the framework of a general theory, the effect of encounters between stars ; 
and stellar encounters under Newtonian inverse square attractions influence 
the motions of stars in the manner of Brownian motion. The analogy with 
Brownian motion arises from the peculiar character of inverse square forces : 
Encounters with small values of the impact paraments (which produce 
appreciable deflections, for example) are very rare, and encounters with 
large values of the impact parameter, which are frequent, are very ineffective. 
Thus, as in Brownian motion, it is only the cumulative effect of a large 
number of encounters which will produce sensible changes in the directions 
and the magnitudes of the motions. There is, however, one inessential 
difference: in the stellar case, stars influence one another, while in the 
Brownian motion of colloidal particles, the particles are primarily influenced 
by the molecules of the surrounding fluid. But, physically, the close analogy 
that exists between the motion of a star in the gravitational field of its 
neighbours and the motion of a colloidal particle deseribing Brownian motion 
results from the following circumstance: Even as collisions with single 
molecules of the surrounding fluid hardly affect the motion of a colloidal 
particle, so also does an average encounter with another star hardly aflect 
the motion of a star; and in both cases what is of importance is the cumulative 
effect of a large number of separate events, each of which has only a very 
minute effect. Moreover, in both problems, during a time interval, 4, 
necessary for the velocity of a particle (star) to change sensib]y, a very large 
number of collisions (éncounters) take place. In the stellar case, this time 
interval is of the order of 105 years: during such an interval of time, an 
average star will have experienced about 100 encounters since the time 
required for an average star to traverse a distance equal to the average 
distance between the stars is of the order of 10* years. 
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5. DYNAMICAL FRICTION 


If our analogy of the effect of stellar encounters with Brownian motion 
is correct, then we should expect to establish, by a direct analysis of stellar 
encounters, the operation of dynamical friction superposed on random 
fluctuations. It is remarkable that such a separation of the effects of stellar 
encounters can be accomplished without appealing to any heuristic concepts. 

Turning then to an analysis of stellar encounters, we recall that during 
an encounter each star will describe a hyperbola relative to the other. As a 
result of the encounter, a star will suffer certain increments Au, and du, 
in its velocity in directions parallel, respectively, perpendicular to the initial 
direction of motion. The exact amounts of these increments will depend 
on the parameters which are necessary to specify an encounter. Considering 
an encounter of a star of mass m and velocity w with another «field star » 
of mass m, and velocity v,, we find, from a straightforward analysis based 
on the classical two body problem, that! 


Au, = — sui [Cu — V, cos Ü) cos p + v, sin Ÿ cos @ sin #] COS y (25) 
M + M 
and 
ALTER Er SALE [u? + vi — 2uv, cos 0 — {(u — v, cos 6) cos w 
J TL Em L 1 


+ v, sin Ÿ cos @ sin p}|" X cosw, (26) 


where Ü denotes the angle between the two vectors w and v,, @ the inclin- 
ation of the orbital plane to the plane containing u and v,, 


cos 9 — {1 + D? (n° + vi — uv, cos 0) / @(m, + m}°}7" (27) 


D the impact parameter and G the constant of gravitation. 

Consider an interval of time 4f(— 105 years) long compared with the time 
(-- 10% years) required for two stars to separate by a distance equal to the 
average distance between the stars, but short compared to the time intervals 
during which the velocity of a star may be expected to change appreciably. 
During such an interval of time, the net increments Ÿ {u, and Ÿ Ju, which 
a star with an initial velocity w may be expected to suffer can be obtained 
by simply averaging the expressions (25) and (26) for Au, and Au, . 

According to equation (26), and as can indeed be expected on general 


? S. CHANDRASEKHAR, Principles of Stellar Dynamics, p. 229, (eq. [5. 721]), University 
of Chicago Press, 1942, 
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À symmetry grounds, Ju, when summed over a large number of encounters 
vanishes. But this is not the case with Ju, ; it is given by 


DO s'TT , 27 D, 27 ’ 
> Au, — | a | dû fu [af CO 2N (os 0 p) VDAu;}, (28) 
27 
0 0 () 0 0 


where V  denotes the relative velocity between the two stars, 
N (v,, 0, p) dv, dû dp is the number of field stars with the specified para- 
meters in the indicated ranges, and D, is the average distance between the 
stars. Further, in equation (28), the various integrations are with respect 
to the different parameters defining a single encounter. Carrying out the 
various integrations, except the last, we find 1 


DO 


2 
D dur = — 7m (m + mi) . EC Q(v) dv, (29) 
0 
where 


log [(1 + fu + v]9 ( + 4? [u — ]°)| (0, <u) 
QG) = {108 [G + 164/v5)] — 40, @=u) (80) 
1 + 2 (0 + HS 


8 > 
log LATE up u (v, > u) 
and 
D, D,/parsec 
D ere = 2,83 X 104 —— 31 
1 cmt+m *°*"Tm+m/oNomser 


Under normal conditions 4?(v, + u)* and #?(v,— u)* are very large compared 
to unity and we can simplify equation (30) to 


4 log 4 (u° — vi) (v, <u), 
Q(v) = 2 log 44 vi — Av, (v; = u), - (32) 
) = 
RE RS RREr ee (> u). 
V, —u 


1 For the details of the derivation see S. CHANDRASEKHAR, Astrophys. J., 97, 255, 
1943 (pp. 258-260). 
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From equation (32) the remarkable result emerges that {o a sufficient accuracy 
only stars with velocities less than the one under consideration contribute to 
Y Au,. It is precisely on this account that dynamical friction appears 
on our present analysis. 

With the further approximation 


| 4 10g 4 u® (v, <u), 


5) 
Lo R (v,> u), (3) 


where |u 2 is the mean square velocity of the field stars, equation (29) becomes 


à a u 
Y' Au, = — An m,(m + m) FE (ou enr) a [00 dv,, (34 


where N denotes the number of field stars per unit volume and /(v,) is the 
distribution function governing the probability of occurrence of a star with 
velocity (v,| = v,. According to equation (34) the star experiences dynamical 
friction with a coefficient of dynamical friction » given by 


n = 4rNm(m+m) . (ou ER) Jo dv, . (35) 
L T 0 


Again from equation (26) we similarly find, after averaging over the 
various parameters of the encounter, that 


8 G2 luË — ; 
LA =saNmie (ou | Fe =) uP 4t | j(@) dv), (86) 
0 


which represents, in analogy with equation (19), a diffusion in velocity 
space. The completeness of the analogy of our present problem with Brownian 


motion is seen even more clearly when we note that, according to equations 
(35) and (36) 


> du _2 M 
: 7 At 3m+m, 


Jui (37) 


which, in our present context, is the equivalent of equation (5). 
In some ways, the emergence of dynamical friction from a straightforward 
analysis of stellar encounters is surprising. Indeed, it is contrary to what 


one might have expected on the following arguments which sound «plau- 
sible » enough: 


LL. 
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a) Suppose we consider a star of velocity |u} appreciably less than the root 
mean square velocity (|u?)*. We should then expect that it encounters 
oftener stars with velocities greater than its own, than stars with velocities 
less than its own. Consequently, we might be led to believe that stars with 
velocities less than the average would be systematically accelerated and, 
similarly, that stars with velocities greater than the average would be 
systematically decelerated. 

b) We might go even farther and argue that the conclusions reached 
in (a) are «reasonable» for, it might be supposed that systematically 
different effects on stars with relatively large, respectively, small velocities 
are required for the statistical maintenance of the average (i.e., normal) 
conditions. É 


In view of the great importance of dynamical friction for statistical 
dynamics, it is important to see the fallacy in these arguments : 

The fallacy in (a) is simply that, for inverse square encounters, the effect 
on the velocity in the direction of motion of à given star, by stars with 
velocities greater than that of the given one, nearly cancels out, on the 
average ; and it is only stars with velocities less than that of the given one 
which predominantly affect the velocity in the direction of motion. 

The fallacy in (b) is due to a misunderstanding. There is nothing really 
obvious in the requirement that for the statistical maintenance of the 
average conditions stars differing from the average conditions should be 
affected differently according to the sense of their departure from the normal 
state. Indeed, the requirement that the normal conditions are self-perpet- 
uating is to state in à different way one of two things: Either, that starting 
from any arbitrary initial state we always approach the normal state (1. e., 
the Maxwellian distribution of velocities) as {—> ©; or, that once the normal 
state has been attained it continues to be maintained. It is now apparent 
that these conditions can be met only if a given star behaves at later times 
in a manner less and less dependent on an initial state as time goes on; or, 
expressing the same thing somewhat differently, we should much rather 
expect that a star gradually loses all trace of its initial state as time progresses. 
Such a gradual loss of ‘memory’ can be achieved only by the operation of a 
dissipative force like dynamical friction which will gradually damp out any 
given initial velocity. Thus, if we assume, for the sake of simplicity, that » 
is independent of u, then the average velocity at later times will tend to zero 
like 

= usb: ® + (38) 


but this is not to imply that the mean square velocity also tends to zero. 
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Indeed, the restoration of a Maxwellian distribution of velocities from an 
arbitrary initial state requires that 


u —0 while |u?-—> a constant as +00. (39) 


To achieve the first of these conditions we need dynamical friction and to 
achieve the second we need random fluctuations as expressed by a diffusion 
coefficient. 

S. CHANDRASEKHAR. 


Summary 


The basic assumptions in the physical theory of Brownian motion are analized and 
the arbitrary character of certain aspects of the current theories is emphasized. The 
most serious limitations of the theory arise from the fact that in the theory, the elementary 
processes of the individual collisions are nowhere discussed. However, it is shown that 
the encounters between stars under their Newtonian inverse square attractions considered 
in Stellar Dynamics provides, in virtue of the peculiar character of inverse square forces, 
a case in Brownian motion in which all phases of the problem can be explicitly analyzed. 
Thus, the separation, of the effects of encounters into a dynamical friction and a random 
fluctuation (which is assumed in the conventional theories of Brownian motion) is 
explicitly demonstrated from a direct analysis based on the dynamics of the encounters 
themselves; similary, the ratio of the frictional to the diffusion coefficients can also be 
shown to have the value which is required for the restoration and maintenance of a Max- 
wellian distribution of velocities from any arbitrary initial distribution. — S. C. 


INDUCTION AMPLIFIANTE ET INFÉRENCE 
STATISTIQUE 


1. DÉFINITIONS DIFFÉRENTES 


Que la notion de probabilité soit «une des plus obscures et des plus mal 
définies au point de vue du rapport entre la logique et la pratique», nul ne 
sen étonnera longtemps. Si l’on se borne aux probabilités que l’on peut 
définir numériquement, on constate qu'il existe, à l'heure actuelle, plusieurs 
définitions et que les probabilistes n'arrivent pas à se mettre d'accord sur 
l’une d'elles. Une des premières occasions dans lesquelles se sont affrontées 
les trois définitions les plus connues des probabilités numériques est, sans 
doute, le Colloque consacré à la Théorie des probabilités qui s’est tenu à 
Genève en 1938, sous la présidence de M. Maurice Fréchet ?. Il ne semble pas 
que depuis cette date aucun progrès n’ait été réalisé vers un accord sur une 
définition unique ÿ. 

Ces difficultés et ces divergences ne sauraient surprendre si l’on remarque, 
de prime abord, que la définition de la notion de probabilité, et même la 
définition des probabilités numériques, touche à la question de la prévision 
et, par conséquent, au problème du déterminisme. Lorsqu'on la met ainsi 
en relation avec un des grands problèmes philosophiques, l'existence simul- 
tanée de plusieurs définitions s'explique et même paraît inévitable. On en 
vient à penser que si l’on veut s'affranchir de la pluralité des définitions, 
il faut restreindre la portée de ce que l’on veut définir. 

C'est ce que nous allons faire en introduisant les deux restrictions sui- 
vantes: d’une part, nous ne considérerons que des probabilités numériques 
et, d'autre part, nous nous placerons exclusivement dans le cadre de l'expé- 
rimentation en considérant toutefois celle-ci dans un sens assez large pour 
qu’elle comprenne n'importe quelle suite coordonnée de raisonnements 
et d'actions. La seconde de ces limitations nous dispense immédiatement 


1Cf. l'article Probabilité dans A. LALANDE, Vocabulaire technique et critique de la 
philosophie. Paris: Presses Universitaires de France, 5° édition 1947. 

2 Cf. Conférences internationales des Sciences Mathématiques organisées à l'Université 
de Genève et publiées par les soins de M. R. Wavre. Actualités scientifiques et industrielles. 
Paris: Hermann 1938. 

3 Cf., par exemple, H. CRAMÉR. Mathematical methods of Statistics. Princeton Univer- 


sity Press 1946, chap. 13. 
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d'avoir à définir la probabilité dans les cas les plus embarrassants, soit, 
pour ne citer que quelques exemples classiques: probabilité que le Masque 
de Fer ait été le frère de Louis XIV, probabilité qu'il existe des êtres 
vivants sur la planète Mars, etc. 

Nous nous affranchirons d’une préoccupation qui peut aussi être fort 
gênante en ne cherchant pas à atteindre une définition qui ait une interpré- 
tation intuitive immédiate. En physique mathématique par exemple, il est 
communément admis que l’on peut partir d’un système d'équations n'ayant 
aucune signification expérimentale immédiate a priori, à condition que ce 
système conduise à des conséquences qui rejoignent a posteriori les consta- 
tations expérimentales. Nous nous accorderons la même liberté en définissant 
les probabilités comme de simples coefficients ou de simples fonctions que 
l’on décide d'introduire dans le raisonnement relatif à telle ou telle expé- 
rience. Certes, il faudra, de même qu’en physique mathématique, que les 
fonctions et coefficients introduits conduisent à des conclusions «qui se rac- 
cordent» avec l’expérience et, même, nous exigerons davantage, nous deman- 
derons que les conclusions obtenues soient susceptibles de concourir au pro- 
grès de l’expérimentation; c’est ainsi que se justifieront a posteriori les choix 
que nous aurons faits, qui pourront donc tout d’abord être présentés comme 
arbitraires. Mais cette justification, nous ne chercherons pas à l’incorporer 
ni totalement ni partiellement dans la définition de la probabilité. Nous 
n’essayerons pas de la trouver à chaque étape du raisonnement, nous consi- 
dérerons, au contraire, comme un grand avantage la faculté de pouvoir la 
différer en totalité et d’en faire l’objet d’une étude spéciale — sur laquelle 
nous reviendrons au paragraphe 5. 

Les probabilités numériques ayant de la sorte été définies comme des 
nombres ou des fonctions satisfaisant à certaines propriétés, elles s’incorpo- 
reront tout naturellement dans un chapitre des mathématiques pures. 
Parmi les travaux relatifs aux probabilités, on pourra donc isoler toute une 
série d’entre eux qui ne sont, en fait, que des mathématiques pures. Par 
contre, il est bien évident que tout ce qui concerne le choix des coefficients 
et fonctions de probabilité échappe au domaine des mathématiques pures. 


2. LA NOTION DE LOI 


Dans notre analyse épistémologique, la loi sera la notion essentielle. 
La même analyse pourrait peut-être reposer sur une autre notion fondamen- 
tale: il nous suffit, ici, de mettre en évidence qu’il nous a paru avantageux 
de faire jouer à la notion de loi un rôle prédominant. 


Nous dirons, en abrégé, qu’un raisonnement est probabilitaire ou qu’il 
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appartient au domaine probabilitaire lorsqu'il fait appel à quelque pro- 
babilité numérique; nous dirons, au contraire, qu’un raisonnement est non 
probabilitaire ou qu’il appartient au domaine non probabilitaire lorsqu'il 
ne fait intervenir aucune probabilité numérique. Dans bien des cas, au lieu 
de «non probabilitaire » on pourrait dire « certain » mais pour écarter tout 
risque de confusion, nous nous abstiendrons d'employer le deuxième de 
ces termes. 

En nous plaçant d'abord dans le domaine non probabilitaire, rappelons 
qu’une loi est, au moins sous sa forme la plus commune, une relation entre 
plusieurs arguments; elle permet donc de déterminer l’un d'eux lorsque les 
autres sont connus. Lorsqu'elle est convenablement associée à une expé- 
rience, elle résume un grand nombre et, souvent même, une infinité de faits 
d'observation. De l'énoncé de la loi, on peut tirer ce que donnera l'expérience 
dans telle condition: la loi permet «de faire l’économie » de la réalisation 
effective de l'expérience. 

En restant dans le domaine non probabilitaire, efforçons-nous de préciser 
le rôle que joue la loi dans le raisonnement expérimental. Plaçons-nous, 
naturellement, au point de vue de la «raison constituée ». Supposons qu’au 
départ on connaisse une loi, précédemment établie, et que l’on sache qu'il 
faut y recourir, ce qui aura presque toujours pour conséquence que l’on 
connaîtra aussi quelles sont les données qu'il faut recueillir. Nous partirons 
donc: a) de données que l’on tire de l'expérience, b) de la loi que l’on va 
appliquer. Envisagé de cette manière, le raisonnement peut être ramené 
au schéma suivant: 

A partir des données, par une « conceptualisation ! » on dégage une chaîne 
de concepts sur laquelle la loi va porter. 

La deuxième opération n’est qu'une suite de déductions. Elle comprend 
à la fois l'enrichissement de la chaîne de concepts que la loi permet de réaliser 
(par exemple, la loi permet de déterminer le n-ième argument à l'aide des 
n-1 autres) et l'orientation vers une des conclusions possibles. 

La troisième opération est la « déconceptualisation » qui, à l'inverse de 
la conceptualisation, est le passage des concepts aux faits expérimentaux. 

On pourrait partir d’un stade antérieur où ni les données qu'il faut tirer 
de l'expérience, ni la loi à laquelle il convient de recourir ne sont connus. 
On les déterminerait, et souvent simultanément, par des tâtonnements, 
par des essais. Chacun de ces essais se ferait précisément selon le schéma 
ci-dessus. 

Le processus que nous venons de décrire est celui qui permet d'aboutir 


1Cf. A. LALANDE, Les Théories de l’Induction et de l'Expérimentation. Paris: Boivin 
1929, p. 210. 
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à une application pratique de la loi. C’est le plus simple dans la méthode 
expérimentale, celui auquel font constamment appel les techniciens, par 
exemple, le calcul de l’angle de réflexion en s’appuyant sur la loi de Descartes 
ou, encore, le calcul de la puissance d’un moteur électrique en s'appuyant 
sur les lois de l’électromagnétisme. 

En continuant à attacher à la notion de loi toute l'importance que nous 
lui avons attribuée, nous allons revenir au domaine probabilitaire pour 
montrer qu’il importe moins d'arriver à une définition (unique) de la pro- 
babilité que de dégager une notion susceptible de jouer dans le domaine 
probabilitaire un rôle analogue à celui que joue la loi non probabilitaire 
dans le domaine non probabilitaire. 


3. LOI PROBABILITAIRE COMPLÈTEMENT FORMULÉE 1 


Nous remarquerons d’abord que calculer une probabilité n’équivaut pas 
à énoncer une conclusion applicable dans la marche de l’expérimentation 
ou, si l’on veut, ce n’est qu’une conclusion intermédiaire, provisoire. 

Soit, par exemple ?, le tir au canon dans lequel on ne considère que les 
écarts en direction. En supposant le canon exactement pointé sur le but, 
on admet que les écarts autour du but sont régis par une distribution nor- 
male. (Loi de Laplace, dite encore de Gauss.) On en tire immédiatement 
qu'il y a une probabilité de 0,9, par exemple, pour qu’un coup tombe 
dans une certaine zone, par exemple — 7, + 17 que l’on peut déterminer 
si l’on connaît l'écart quadratique moyen de la distribution normale. Mais 
en pratique, lorsqu'une action doit être décidée, s’il s’agit par exemple de 
mettre à l'abri du personnel, du matériel, la considération de la probabi- 
lité 0,9 ne suffit pas. Il faut aller plus loin. Il faut agir comme si le coup ne 
pouvait pas tomber hors de la zone; à un certain moment, il faut décider 
l’action que l’on va entreprendre comme si l’on avait la certitude que le 
coup ne peut pas tomber en dehors de — 7, +. 

L'expérimentateur ne peut tirer d’un raisonnement probabilitaire qu’une 
certitude pratique. Il arrive toutefois à une conclusion d’après laquelle il 
peut décider de l'orientation de la marche ultérieure de l’expérimentation 
à la condition, naturellement, de se contenter de la certitude pratique, et il 


! Ce paragraphe et, pour une part, les deux suivants, résument un article paru dans la 
Revue de Métaphysique et de Morale, avril 1948. Paris: A. Colin. 

? Nous utiliserons souvent cet exemple parce que nous n’en avons trouvé aucun autre 
dans lequel apparaît plus intuitivement le jeu de la loi de probabilité la plus connue. Il ne 
fait évidemment appel à aucune connaissance de balistique. 
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est bien obligé de s’en contenter. C’est ce qui a été établi dans un travail 
précédent. 

Afin qu’il ne soit pas indispensable de se reporter à ce travail, nous allons 
rappeler la définition de la loi probabilitaire complètement formulée, On 
réunit sous Ce nom: 


1. Une distribution de probabilités définie sur l’ensemble À des résultats 
possibles. 

2. Une première décision fixant un degré de probabilité «. 

3. Une seconde décision déterminant, lorsque la distribution et «& ont 
déjà été arrêtés, un seul des sous-ensembles de À auquel est affectée une 
probabilité inférieure ou égale à &: soit V, ce sous-ensemble. 


D'une loi probabilitaire complètement formulée on peut tirer une conclu- 
sion applicable dans l’expérimentation. Dans l'exemple précédent on conclura 
que le coup ne tombera pas en dehors de — 7, + 7. Cette conclusion est 
comparable dans sa forme à celle que l’on peut tirer d’une loi certaine et 
elle joue dans l’expérimentation le même rôle que cette dernière. Toutefois, 
il faut bien prendre garde qu'il existe deux différences essentielles : 

Une conclusion tirée d’une loi probabilitaire complètement formulée 
n'est valable qu’en certitude pratique au degré de probabilité & et c’est ce 
qui sépare essentiellement le domaine non probabilitaire du domaine 
probabilitaire. 

Une conclusion ne peut être tirée d’une loi probabilitaire complètement 
formulée exclusivement par une déduction, comme lorsqu'il s’agit d’une loi 
non probabilitaire; il faut, de plus, faire intervenir ce que nous appelons 
la convention terminale. 

Cette convention terminale s'’énonce ainsi: 


« L'ensemble V de probabilité inférieure ou égale à & déterminé d’une 
manière unique par la loi complètement formulée, sera vide de résultats. » 


I ne peut être fait appel à la convention terminale qu'une seule fois, 
tout à la fin du raisonnement probabilitaire. 

La loi probabilitaire complètement formulée permet, en appliquant le 
processus qui vient d’être décrit, d'arriver à une conclusion positive bien 
déterminée susceptible d'être employée pour diriger la marche de l'expéri- 
mentation. 

Si, en se plaçant comme dans le paragraphe précédent au point de vue 
de la raison constituée, on analyse le rôle de la loi probabilitaire complète- 
ment formulée, on aboutit à un schéma analogue. La différence essentielle 
apparaît dans la deuxième opération qui n’est plus une suite de déductions 
mais qui comprend, de plus, la convention terminale. Les déductions se 


à 


132 L. FÉRAUD 


présentent le plus souvent comme des transformations de distributions ; 
lorsque celles-ci sont achevées, on fait intervenir les deux décisions et, tout 
à fait en dernier lieu, la convention terminale. Pour illustrer cette analyse, 
on peut penser, par exemple, soit au tir au canon déjà cité, soit à un tirage 
ou à une série de tirages, au hasard, dans une urne de composition connue. 

Les lois probabilitaires complètement formulées qui constituent notre 
point de départ ne sont pas données, il faut les établir. Nous allons mainte- 
nant nous occuper de leur recherche mais, auparavant, nous devons dire 
quelques mots de l’induction amplifiante. 


4. L’INDUCTION AMPLIFIANTE DANS LE DOMAINE NON PROBABILITAIRE 


Continuant à faire jouer à la notion de loi le rôle principal, nous assimilons 
l'induction amplifiante1 à la recherche d’une loi à partir de certaines données 
tirées de l'expérience. Nous nous plaçons maintenant au point de vue de la 
«raison constituante ». Dans la recherche de l’énoncé d’une loi, on passe 
d’abord des données aux premiers concepts puis, de ceux-ci, à l'énoncé de 
la loi par un processus complexe dans lequel se mêlent des déductions, de 
nouvelles conceptualisations et une part d’induction amplifiante. Bien 
entendu, en général, la loi n’est pas tirée des seules données expérimentales ; 
de nombreuses autres considérations peuvent intervenir telles que l’analogie, 
la simplicité, l’économie de pensée, l’harmonie, l'esthétique et, surtout, 
l'insertion de la loi dans une théorie préexistante. 

On sait combien il est difficile de soumettre à l’analyse l'induction 
amplifiante, et nous ne nous y engagerons pas, nous contentant d’avoir 
rappelé que pour énoncer une loi il faut passer par une induction amplifiante 
et cela même dans le domaine non probabilitaire. 


5. L’INDUCTION AMPLIFIANTE DANS LE DOMAINE PROBABILITAIRE 


Si l’on recourt à la notion de loi probabilitaire complètement formulée, 
la recherche d’une loi se situe dans le domaine probabilitaire de la même 
manière que dans le domaine non probabilitaire ; tout ce qui a été dit dans 
le paragraphe précédent subsiste, il suffit d'ajouter que l’on devra choisir 
non seulement la distribution qui définit les probabilités, mais encore le 
degré de probabilité et la place de l’ensemble V. On est donc amené à distin- 


guer trois parties dans l'induction amplifiante qui conduit à une loi proba- 
bilitaire complètement formulée. 


1 Cf. A. LALANDE, Les Théories de l’Induction et de l’Expérimentation. Paris: Boivin 
1929, p.06; 
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La première a pour objet le choix d’une distribution de probabilités. 
La conceptualisation permet de définir un ensemble À de résultats possibles 
et il s’agit ensuite d’attacher à cet ensemble une fonction capable de définir 
les probabilités. On dit que l’on «probabilise» l’ensemble des résultats pos- 
sibles. Nous avons dit au paragraphe 1 que les probabilités se définissent 
en faisant appel à une fonction arbitraire. Il est clair qu'il faudra toutefois 
s’efforcer de choisir cette fonction de la manière la plus opportune, c’est-à- 
dire, de telle sorte que les conclusions que l’on tirera de la loi probabilitaire 
complètement formulée s'accordent aussi bien que possible avec les résultats 
fournis par l'expérience, et qu’en outre, la loi probabilitaire complètement 
formulée soit susceptible de conduire à de nouvelles conclusions utiles pour 
diriger la marche de l’expérimentation. Nous ne chercherons pas à enfermer 
toute la probabilisation dans un processus qui serait capable de la déterminer, 
car nous savons qu'elle comprend une part d’induction amplifiante. On peut 
toutefois dégager certaines règles partielles comme par exemple la symétrie 
dans le cas de l’équipartition, le théorème des probabilités composées qui ne 
sont au fond que des règles de probabilisation. On peut aussi prendre pour 
guide dans le choix de la probabilisation l'accord des conséquences de la loi 
probabilitaire complètement formulée avec les résultats tirés de l'expérience. 
C’est ce que l’on fait dans l’inférence statistique que nous allons considérer 
dans les paragraphes qui suivent. Nous rencontrerons dans ces paragraphes 
plusieurs exemples dans lesquels il s'agira précisément de choisir une distri- 
bution (en précisant un paramètre); en attendant, bornons-nous à citer, 
pour fixer les idées, le cas où il s’agit d’apprécier la composition d’une urne 
dans laquelle ont été effectués et doivent encore être effectués des tirages 
au hasard. Dans le langage usuel, on dit que l’on connaît la loi de probabilité 
dès qu'est déterminée la distribution; la distribution à elle seule définit en 
réalité une famille de lois probabilitaires complètement formulées 1, 

La seconde induction est celle qui fixe le degré de probabilité. Toutefois, 
celui-ci n'apparaît pas dans la plupart des travaux sur les probabilités. 
Cela tient uniquement à ce que les probabilistes tiennent à laisser le choix 
du degré de probabilité à la disposition de l'expérimentateur et même de 
laisser à celui-ci la possibilité de modifier ce degré aussi souvent qu'il le 
voudra. On se contente donc d’énoncer des conclusions qui peuvent être 
appliquées avec tout degré de probabilité qu'il plaira à l’expérimentateur 
de choisir. 

La troisième et dernière induction est celle qui fixe la position de V. 
Bien rarement, il est mentionné que cette position résulte d’un choix arbi- 
traire. Le plus souvent, on recourt à une position de V qui est dictée par 


1 Nous reviendrons à cette remarque au paragraphe 9. 
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l'habitude. Par exemple, dans le cas du tir au canon, on prend V tel que son 
complémentaire V* par rapport à R, soit un intervalle entourant symé- 
triquement le but. Ce choix est si usuel, qu’il semble s'imposer. Pourtant, 
il n’en est rien. La position de l'intervalle V est tout à fait indéterminée 
pourvu que la probabilité qui lui est associée soit égale à a. Dans le tir au 
canon, on pourrait aussi bien prendre V* dissymétrique par rapport au but, 
ou même choisir V de telle sorte que lui-même, et non pas V° soit un 
intervalle entourant symétriquement le but. Il peut être opportun, pour 
arriver à une conclusion qui présente un intérêt dans le cours de l’expéri- 
mentation, d'adopter telle position de V, mais celle-ci n’est pas imposée par 
des considérations théoriques. De nombreuses questions s’éclaircissent, de 
nombreuses difficultés disparaissent si l’on ne perd pas de vue que la position 
de V provient d’un choix arbitraire, c’est-à-dire, d’une induction amplifiante. 
Nous aurons l’occasion d’y revenir dans le paragraphe suivant. | 

Pour les besoins de l’analyse épistémologique, nous avons distingué 
trois parties dans l'induction amplifiante. Bien entendu, dans les recherches 
qui permettent d'effectuer cette induction, les trois parties peuvent être 
intimement mélées et nous ne prétendons pas qu’elles s’accomplissent 
successivement, ni dans l’esprit du savant, ni même au cours du progrès 
collectif de la science. 


6. PRÉLIMINAIRES À L’'INFÉRENCE STATISTIQUE 


Dans les ouvrages de statistique récents, on tend à réunir sous le nom 
d’inférence statistique plusieurs chapitres dont le nombre et l’ampleur vont 
en croissant. Avant d'examiner de plus près les deux théories autour des- 
quelles la plupart de ces questions peuvent être groupées, nous nous arrête- 
rons à quelques remarques qui nous aideront à comprendre de quoi il s’agit. 
On verra plus loin que l’inférence statistique comprend, d’abord, tous les 
problèmes dans lesquels on a essayé de faire appel aux soi-disant «probabilités 
inverses » et, par conséquent, qu’elle touche à toutes les difficultés soulevées 
par cette notion ! y compris les discussions sur la «validité » de la règle de 
Bayes. On verra aussi que l’inférence statistique non seulement est une étude 
systématique de ces problèmes mais qu’elle les élargit et en introduit de 
nouveaux. 

Aux paragraphes 2 et 4, nous nous sommes placé au point de vue de la 
science constituée, tandis qu'aux paragraphes 3 et 5, nous adoptions le point 
de vue de la science constituante. On peut se demander si nous n’avons pas 


? CE R. À. Fisher, The design of experiments. London : Oliver and Boyd 1935, p. 6. 
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établi une de ces distinctions artificielles, qui entraînent si souvent dans 
l'erreur, puisqu'en fin de compte, les deux parties peuvent être comprises 
et le sont très souvent — dans un processus unique. Il ne semble pas, 
toutefois, que cette objection doive être retenue. Aucune analyse épistémo- 
logique n’est possible si l’on interdit de distinguer des phases dans le raisonne- 
ment, au moins pour les besoins et pour le temps de cette analyse. Dans la 
marche des idées, il faut mettre en évidence des paliers. Dans notre cas, la 
loi est le palier. On peut la considérer soit comme une hypothèse collective 
sur laquelle s’est fait l’accord des esprits, soit comme une hypothèse de travail 
admise provisoirement par un savant dans le cours de sa recherche. En 
d’autres termes, on ne peut tout mettre en doute tout le temps; la loi est 
une base immobile, solide, sur laquelle on s'appuie, pour un temps au moins. 

Remarquons qu’au paragraphe 3, on part de probabilités supposées 
admises et l’on en tire de nouvelles probabilités: la validité des secondes 
est une conséquence de la validité des premières. Dans le paragraphe 5, on 
aboutit à des probabilités mais seulement à travers l'arbitraire que comporte 
l'induction amplifiante. Ce qui montre que toute probabilité dépend d’un 
choix arbitraire plus ou moins reculé mais inévitable; il s'ensuit qu’au 
paragraphe 1, en considérant les probabilités comme des coefficients arbi- 
traires, nous ne nous écartions pas de leur véritable nature, Remarquons 
encore que, tandis qu’au paragraphe 3, en raison de la convention terminale, 
on aboutit à la certitude pratique, au paragraphe 5 il ne s’agit pas de certitude 
pratique mais de l'arbitraire que comporte l'induction amplifiante. Naturelle- 
ment, si l’on considère l’ensemble des deux processus, celui du paragraphe 3 
et celui du paragraphe 5, on y trouve deux indéterminations : celle qui pro- 
vient de l'induction amplifiante et celle qui provient de la certitude pratique. 

Si, dans le domaine non probabilitaire, la distinction entre l'application 
d'une loi (paragraphe 2) et la recherche d’une loi (paragraphe 4) s'établit 
immédiatement, il n’en est plus de mème dans le domaine probabilitaire. 
En effet, dans ce dernier, l'application de la loi ne se fait plus par une simple 
déduction ni par un raisonnement contraignant, car il est indispensable de 
faire appel à la convention terminale. On peut être dérouté en constatant 
que dans l'application d’une loi intervient une indétermination. Un grand 
nombre des difficultés qui se présentent, non seulement dans l'analyse 
épistémologique des probabilités mais dans la discussion de leurs applications 
pratiques, proviennent de ce que l’on n’a pas assez nettement séparé la phase 
du paragraphe 3 de la phase du paragraphe 5. A l’aide de la notion de loi 
probabilitaire complètement formulée, la distinction devient aussi facile 
dans le domaine probabilitaire que dans l’autre: d’une part, on tire une 
application d'une loi probabilitaire complètement formulée ainsi qu'il a été 
vu au paragraphe 3, d'autre part, on arrive à l'énoncé d'une loi probabilitaire 
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complètement formulée comme il a été indiqué au paragraphe 5. Cette dis- 
tinction étant nettement établie, on peut dire que l’inférence statistique 
comprend l’ensemble des problèmes que l’on rencontre lorsqu'il s’agit de poser 
l'énoncé d’une loi probabilitaire complètement formulée. 

On voit que les seuls mots d’«inférence statistique » ne caractérisent pas, 
au moins à première vue, les problèmes que l’on englobe sous ce titre. On 
pourrait dire que dans tous ces problèmes, on rencontre une part d’inférence 
inductive, mais il faudrait remarquer que l’inférence inductive intervient 
aussi lorsqu'il s’agit d’énoncer une loi non probabilitaire. Il s’agit, en fait, 
d’inférence inductive dans le domaine probabilitaire, et l’on peut encore 
préciser en disant qu'il s’agit d’induction amplifiante dans le domaine proba- 
bilitaire. 

En introduisant la loi probabilitaire complètement formulée, nous avons 
envisagé les probabilités et leurs applications sous un angle auquel on est 
peu habitué mais, cela nous à permis, jusqu'ici, d’écarter les difficultés 
relatives aux définitions de la probabilité, au moins dans le cadre que nous 
nous sommes imposé, de poursuivre l’analyse épistémologique du raisonne- 
ment probabilitaire, en particulier, de mettre en évidence la distinction entre 
certitude pratique et induction amplifiante, et enfin, de caractériser les pro- 
blèmes de l’inférence statistique. Nous allons montrer que le point de vue 
que nous avons adopté permet encore : 1° de poser avec netteté chacun des 
problèmes de l’inférence statistique sans que sa signification essentielle 
risque d’être masquée par l’appareil mathématique; 2° d'élargir le champ 
de l’inférence statistique ; 3° d'expliquer pourquoi les méthodes de l’inférence 
statistique continuent d’être l’objet de controverses 1, et même pourquoi il 
existe à leur égard une variété infinie d'opinions ?. k 

Les problèmes d’inférence: statistique se rattachent, presque tous, à 
l’une ou l’autre des deux théories auxquelles on a donné les noms suivants: 
1° estimation d’un ou de plusieurs paramètres; 2° vérification d’une hypo- 
thèse. Nous allons examiner successivement chacune de ces théories, bien 
entendu à la lumière de ce qui précède. 


7. ESTIMATION D'UN OÙ DE PLUSIEURS PARAMÈTRES 


N'ayant en vue que le but et la portée de cette théorie et nous proposant 
seulement d'analyser ses principes et les méthodes auxquelles elle fait appel, 
nous ne prendrons que des exemples où il s’agit d'estimer un seul paramètre ; 


1 Cf. H. CRAMÉR, loc. cit., p. 473 et p. 525. 
? CE. M. FrÉcHET, Rapport sur l'estimation statistique des paramètres. Conférences 
statistiques internationales. Washington 1947. (Document: ISC/220/ISI: Econ. P. F.) 
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l'extension à l'estimation de plusieurs paramètres pourra poser des problèmes 
nouveaux, mais les principes essentiels subsisteront. 


Estimation par un point. — L’estimation d’un paramètre se présente 
évidemment dans le domaine non probabilitaire, c’est-à-dire lorsqu'il s’agit 
de préciser l'énoncé d’une loi non probabilitaire qui n’est encore déterminée 
qu'à un paramètre près. Une réalisation effective de l'expérience associée à 
la loi donne les valeurs des arguments qui figurent dans celle-ci et la relation 
qu'exprime la loi permet de calculer le paramètre à partir des nombres 
mesurés. C’est ce qui se passe lorsqu'on détermine une constante physique 
dans une loi dont la forme est posée à l'avance; bien entendu en supposant 
négligeable les erreurs accidentelles sur les mesures, sans quoi on ne serait 
plus exclusivement dans le domaine non probabilitaire, il faudrait d’ores 
et déjà faire appel aux probabilités. Un exemple plus intuitif, que nous 
reprendrons d’ailleurs dans le domaine probabilitaire, est le suivant: un 
canon est en position en un point inconnu d’une route rectiligne, il tire 
perpendiculairement à cette route sur une cible parallèle à cette route, le 
pointage est parfait et la distance suflisamment courte pour qu'il n'y ait 
pas d’écarts en direction. Lorsque l’on a relevé un point de chute, la position 
du canon s’en déduit immédiatement en élevant la perpendiculaire à la route 
au point de chute. Ainsi dans le domaine non probabilitaire, l'estimation 
d’un paramètre est tellement simple qu’elle se fait presque inconsciemment 
et aucun problème ne se pose. 

Il n’en est plus de même dans le domaine probabilitaire, c'est-à-dire si 
l’on se propose d'aboutir à une loi probabilitaire. Reprenons l'exemple du tir 
au canon en supposant maintenant que la distance est suffisamment grande 
pour que la dispersion en direction se fasse sentir. On ne peut évidemment 
plus déduire la position exacte du canon de la connaissance d’un point de 
chute. En pratique on sera toutefois amené à le faire, au moins dans une 
certaine mesure et ceci, semble-t-il, pour deux motifs: d'abord par analogie 
avec ce que l’on fait dans le domaine non probabilitaire et ensuite, parce que 
toute autre indication fait défaut. Si l’on a repéré plusieurs points de chute, 
on est naturellement conduit à se demander quelle est la meilleure manière 
d'utiliser la connaissance de ces points de chute pour obtenir la position 
du canon: dans la solution que l’on adopte, en général, on fait appel à la 
moyenne arithmétique des abscisses des points de chute. Un autre exemple 
-— sur lequel nous aurons à revenir — est celui d’une urne composée de boules 
blanches et de boules noires dans des proportions inconnues; on a fait n 
tirages au hasard en remettant la boule tirée et l’on a obtenu une proportion p 
de boules blanches. Dans de nombreux cas on prend p pour représenter la 
proportion des boules blanches contenues dans l’urne. 
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Ces exemples élémentaires mettent en évidence les questions qui se 
posent : 

Comment utiliser de la « meilleure manière » les résultats fournis par les 
réalisations de l'expérience qui ont été effectuées, pour estimer le paramètre 
qui reste indéterminé dans la distribution ? 

À quoi reconnaîtra-t-on que l’on a adopté la meilleure manière d'utiliser 
les données d'observation ? En d’autres termes: 

Qu'est-ce qui caractérisera la « meilleure » estimation ? 

Comment obtiendra-t-on cette meilleure estimation ? 


Les problèmes ainsi posés, ont été considérés depuis longtemps mais 
une part importante des solutions qu’ils reçoivent actuellement est due à 
M. R. A. Fisher. On trouve maintenant ces solutions dans tous les ouvrages 
de statistique (méthode du maximum likelihood, efficience de l’estima- 
tion, etc.). 

Il nous importe ici de remarquer que dans ces problèmes il s’agit d’assigner 
une valeur à un paramètre, qui restait indéterminé dans la distribution, en 
se référant à des données expérimentales. C’est donc le passage de données 
à une distribution. En vertu de ce que nous avons vu au paragraphe 5, dans 
ce passage on rencontre inévitablement une induction ambplifiante. Nous 
savons donc qu’il n’existera aucune méthode capable de s'imposer définiti- 
vement pour obtenir la meilleure estimation. Il subsistera toujours une part 
d'appréciation dans ce qui sera considéré comme la meilleure estimation. 
En fait, les méthodes généralement appliquées sont les extensions, les plus 
raisonnables sans doute mais non point nécessaires, des procédés que l’on 
applique intuitivement dans les cas tout à fait élémentaires et qui ont reçu 
dans ceux-ci la confirmation de l’expérience. 

Il ne s’est agi jusqu'ici que des méthodes qui tendent à assigner au 
paramètre indéterminé une valeur unique. C’est ce que l’on peut appeler 
«l’estimation par un point ». Il est clair qu’elle est très importante en pra- 
tique où, dans bien des cas, par exemple pour procéder à des essais ultérieurs, 
il faut se décider pour une valeur du paramètre. 


Estimation par un ensemble. — Au lieu de chercher à arrêter une valeur 
unique du paramètre on peut se proposer de déterminer un ensemble dans 
lequel il doit être compris. Cet ensemble pourra être un intervalle si le para- 
mètre est susceptible d'une variation continue ; on pourra obtenir une région 
dans l'estimation de plusieurs paramètres. 

Par souci de clarté, nous envisagerons l'estimation d’un paramètre par 
un ensemble sur deux exemples excessivement simples (il paraît difficile 
d'en imaginer de plus simples); dans le premier interviendra une distribution 
discontinue (et même discrète) et dans le second, une distribution continue. 
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Premier exemple. — Nous l’emprunterons à une enquête internationale 
recemment ouverte par l’Institut international de statistique. Cette enquête 
est ainsi libellée : 


« Queslion posée. — Un événement E a été observé r fois dans n épreuves. 
Sachant (ou admettant) que Æ y avait une probabilité constante (mais 
inconnue) p, que peut-on dire sur la valeur inconnue de p, connaissant 
seulement n et le nombre r de répétitions de Æ (ou sa fréquence f — r/n) ? 

» A-t-on des objections (et lesquelles ?) à faire contre l’une ou l'autre 
des méthodes connues qui donnent une réponse à cette question ? 

» Pour simplifier à la fois la réponse et la comparaison des réponses, 
on ne demande d'examiner que le cas où n —1etr —1. 

» Il importe peu que, vu le petit nombre d'épreuves envisagé (une seule !), 
la réponse ne puisse restreindre que très peu (et même d'une façon ineflicace 
en pratique) l'incertitude sur la valeur de p. Seules la possibilité et la justi- 
fication de cette restriction sont en cause ici. » 


Les résultats de cette enquête n’ont paru, jusqu'ici, que dans un cahier 
ronéographié, publié par la Commission mixte d'organisation des conférences 
statistiques internationales (Document: ISC/220/ISI: Econ — P — F)1, 
Il est vraisemblable qu'ils seront prochainement imprimés et, peut-être, 
seront-ils accompagnés des discussions auxquelles le sujet a donné lieu lors 
du Congrès mondial de statistique qui s’est tenu à Washington, du 6 au 
18 septembre 1947. Dans le document qui vient d’être cité, M. Maurice Fréchet, 
rapporteur de l'enquête, a analysé et résumé les réponses écrites à cette 
enquête ; il nous suffit donc ici de renvoyer à ce document et au rapport de 
M. Fréchet. Nous pouvons donc nous contenter, d’une part, de quelques 
considérations qui relient le sujet de l'enquête à l'analyse épistémologique 
que nous venons de faire et, d'autre part, de montrer qu'en introduisant la 
notion de loi probabilitaire complètement formulée on obtient aisément 
une réponse à la question posée. 

Les considérations générales par lesquelles nous débuterons ont, pour la 
plupart, leur origine soit dans le libellé de la question elle-même, soit dans le 
rapport de M. Fréehet. Tout d’abord, si l'on considère qu'il s’agit de déter- 
miner la distribution que l’on associera à l'expérience considérée, c'est-à-dire 
qu'il s'agit de déterminer un paramètre qui précisera l'énoncé d'une loi 
probabilitaire complètement formulée, il est clair que la difficulté ne peut 
être que dans la logique ou mieux, dans le rapport entre la logique et la 
pratique et qu'il est fort heureux que le sujet présenté ait été intentionnelle- 
ment débarrassé des calculs mathématiques complexes «qui ne touchent 


1 Je dois d’avoir pu consulter ce document à l’obligeance de M. A. LINDER, auquel 
j'adresse, ici, tous mes remerciements. 
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pas au fond des questions en litige ». Il paraît aussi à peu près évident que 
le cas n —r — 1 sur lequel l'énoncé attire l'attention comprend déjà tout 
l'essentiel de la question. On peut, en effet, considérer, pour n quelconque, 
la connaissance de n résultats comme celle d’un point pour une distribution 
à n dimensions et l’on ne pourrait rien affirmer dans le cas d’une distribution 


à n dimensions si l’on ne savait rien dire dans le cas d’une distribution à. 


une seule dimension, étant entendu, comme dans l’enquête, que l’on a en vue 
seulement le principe du raisonnement et non son efficacité. 

En partant du cas n —r —1, on voit immédiatement qu'il ne peut 
s'agir que d'estimation par un ensemble et non d'estimation par un point. 

L’'énoncé de la question précise que la valeur de p est inconnue, c’est-à- 
dire que l’on ne sait absolument rien sur la valeur de p et que tout ce que l’on 
dira doit être tiré de la constatation expérimentale : observation de r fois 
l'événement E dans n épreuves. Cette ignorance totale de la « probabilité 
a priori » mérite d’être mise en évidence. En effet, le problème posé a une 
interprétation immédiate dans les questions pratiques d’échantillonnages 
et dans celles-ci, on aura souvent quelques indications plus ou moins précises 
sur la probabilité a priori; il est bien évident qu’il ne faudra pas négliger ces 
indications, en dehors de toute théorie, le bon sens l’exige. Si l’on interprète 
la question comme la recherche de la composition d’une urne à partir du 
résultat de n tirages, il ne faudra pas perdre de vue que cette détermination 
doit être envisagée dans l'ignorance totale de la provenance de l’urne, 
c'est-à-dire dans l'ignorance de toute indication «a priori sur la composition 
de l’urne. 

Au point de vue de la philosophie des sciences, il peut être intéressant, 
sinon Curieux, qu’une question d'apparence aussi simple, d’une part, ait été 
considérée comme assez importante pour faire l’objet d’une enquête inter- 
nationale et, d’autre part, n’admette pas une seule réponse, universellement 
admise, puisqu’une grande diversité s’est manifestée dans les résultats de 
l'enquête. 

Si l’on envisage la question posée dans le cadre de l'analyse épistémo- 
logique qui précède, son importance apparaît immédiatement. Il s’agit, en 
effet, de préciser l'énoncé d’une loi probabilitaire complètement formulée ; 
nous sommes donc devant un problème particulier, très particulier, qui s’in- 
sère dans ce qui a été vu au paragraphe 5. On peut interpréter la question 
comme la recherche de la composition de urne, en partant exclusivement 
du résultat de n tirages au hasard, or, la composition d’une urne s’obtient 
soit par une déduction si l’on peut procéder à une énumération complète, 
soit par une inférence si on la tire de résultats observés. On ne peut procéder 
par énumération complète que dans des cas assez rares, presque exclusive- 
ment dans les jeux de hasard, mais, dans la plupart des applications sta- 


ais 
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tistiques, il faut inférer la composition de l’urne à partir des observations, 
c'est, par exemple, ce qui se présente pour les taux de mortalité, On voit 
qu'en posant cette question, l'enquête internationale soulève tout le pro- 
blème de la recherche qui conduit à poser l'énoncé d'une loi probabilitaire 
complètement formulée. Elle a donc pour objet une étape indispensable 
dans presque toutes les applications des probabilités. 

La diversité des réponses, attendue par les promoteurs de l'enquête, n’a 
provoqué aucune surprise parmi les probabilistes ; il n’en aurait peut-être pas 
été de même si l'enquête avait été adressée à cette autre catégorie de per- 
sonnes mentionnée par M. Fréchet dans son rapport: celles qui ne s'occupent 
de probabilités «très légitimement qu'en vue de leur utilisation pour une 
technique ou pour une science tout autre ». On peut même se demander si 
parmi celles-ci, l'enquête n'aurait pas provoqué quelque inquiétude, voire 
quelque scandale. Comment, en effet, pourraient se dire les «usagers » de la 
statistique, accorder notre confiance aux méthodes souvent fort complexes 
du point de vue mathématique et fort laborieuses du point de vue des calculs 
numériques que nous proposent les probabilistes si eux-mêmes ne sont pas 
d'accord sur un problème aussi simple — même pas dans le cas n —r—1. La 
réponse à cette objection est évidemment celle de M. Fréchet : il importe de 
ne pas donner en toute occasion «l'impression de sécurité à laquelle conduit 
souvent l'emploi des mathématiques, sécurité qui existe, en effet, mais seule- 
ment du passage des hypothèses aux conclusions, mais qui cesse aux deux 
extrémités, or, très souvent, cette réserve n’est pas mise suffisamment en 
lumière ». On peut encore se demander si la diversité d'opinions qui s’est 
manifestée est occasionnelle, provisoire ou, au contraire, inévitable, perma- 
nente. En plaçant la question, ainsi que nous l'avons déjà fait, dans le cadre 
de notre paragraphe 5, on voit qu’elle comporte une part d'induction ampli- 
fiante et, par conséquent, quelque chose d’arbitraire : il y aura donc inévi- 
tablement, dans le raisonnement, un point où chaque esprit pourra décider 
à sa manière de l'arbitraire qui s'offre à lui, il s'ensuit que dans son 
ensemble le raisonnement n'aura rien de contraignant, c'est-à-dire que des 
divergences resteront toujours possibles. 

Nous allons maintenant rappeler la solution à laquelle conduit la notion 
de loi probabilitaire complètement formulée !, Nous rendrons le raisonnement 
plus facile à suivre, sans restreindre l'essentiel de la question, en supposant 
que le paramètre n’est susceptible que d'une variation discontinue et en 
introduisant des valeurs numériques. Nous poserons donc la question comme 
suit : 

1Cf. Loi probabilitaire complètement formulée dans la théorie de l'estimation. Compte 


rendu des séances de la Société de physique et d'histoire naturelle de Genève. Vol. 64, 
n° 1, janvier-mars 1947, pp. 23-28. 


142 L. FÉRAUD 


Soit une urne contenant 108 boules parmi lesquelles B blanches et 10$ — B 
noires. On a fait un tirage dans les conditions dites «au hasard ». Il a donné 
une boule blanche. Que peut-on dire de B? 

Il a déjà été dit mais nous tenons à le répéter, que le problème est envisagé 
dans l'ignorance totale de toute indication sur la provenance de l’urne. 

On peut d’abord dire 

bio 


et l’on doit s'arrêter là si l’on ne veut recourir qu’à une déduction c’est-à-dire 
à un raisonnement contraignant. Toutefois si l’on se refuse à aller plus loin, 
il faudrait renoncer à presque toutes les applications des probabilités, ainsi 
qu'il a été montré plus haut. 

Considérons toutes les hypothèses admissibles 


B—1,2,... 10. 


Supposons que l’une d’elles soit admise, B — B,. Que va-t-on en faire ? 
On se trouve devant un tirage au hasard dans une urne de composition 
connue. Décidons d'adopter pour degré de probabilité & = 10 $. 

Ainsi, au degré de probabilité 107$ et pour un seul tirage: 


si 1 = B, = 10? on conclura qu'il ne sortira pas une boule blanche, 
si 102 < B, < 10 — 10? on ne pourra tirer aucune conclusion, 
si 105 — 10 = B, on conclura qu'il ne sortira pas une boule noire. 


Par suite, dans le premier cas et dans le premier cas seulement, la sortie 
d'une blanche, qui a été constatée, est en contradiction avec une conséquence 
de l'hypothèse. L'adoption de toute hypothèse définie par un B, = 10? est 
en contradiction avec le seul fait expérimental que l’on possède. Aucune des 
hypothèses B, = 10? ne conduit à une contradiction. 

On peut donc distinguer parmi toutes les hypothèses possibles deux 
classes, la première formée par les hypothèses qui ne conduisent pas à une 
contradiction avec le résultat fourni par les observations ; la seconde par les 
hypothèses qui, au contraire, conduisent à une contradiction. 

Les choses étant envisagées sous cet angle, on est naturellement amené 
à accorder une préférence à la première classe. On est même amené à ne retenir 
que cette première classe; elle constitue «l’ensemble de confiance » selon 
la terminologie de Neyman et Pearson. Dans l'exemple que nous avons pris, 
cette première classe, ou si l’on veut l’ensemble de confiance, est définie par 
B > 10%. Cet ensemble n’a évidemment aucun intérêt pratique, dans le cas 
que nous avons pris, mais il suffirait de passer au cas de n quelconque pour 
obtenir par le même raisonnement un ensemble de confiance beaucoup plus 
restreint et, par conséquent, susceptible d’avoir un intérêt pratique. Le 
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passage au Cas de n quelconque conduit, en outre, à compléter le raisonne- 
ment: il faudra, en effet, tenir compte de la deuxième décision qui figure 
dans la loi probabilitaire complètement formulée, c’est-à-dire de la position 
de V. Dans le cas n — r — 1, il n’a pas été nécessaire de tenir compte de cette 
position, en vertu d’une circonstance assez exceptionnelle: l'ensemble R 
n’admettant que deux sous-ensembles, la position de l’ensemble V est à 
peu près déterminée, tout au plus peut-il être échangé avec son complé- 
mentaire V*. 


Deuxième exemple. — Il est également excessivement simple et même 
banal puisqu'il se présente dans toute mesure entachée d'erreurs acciden- 
telles. On peut encore l’interpréter comme la recherche de la position du canon 
dans l’exemple considéré plus haut. Dans les deux cas, on part de la distri- 
bution normale 


| È (æ—a)? | 
(1) Lee PT 
ec real 


dans laquelle a est le paramètre qu'il s’agit d'estimer (c’est la vraie valeur 
dans le cas de la mesure d’une grandeur, c’est la position du canon dans le 
cas du tir). Le raisonnement est tout à fait analogue à celui du premier 
exemple. Nous commençons par compléter l'énoncé de la loi probabilitaire 
complètement formulée. Pour une valeur a choisie du paramètre, la loi 
probabilitaire complètement formulée comprendra : 


19 la distribution (1) pour a — 4;,; 

29 une première décision fixant un degré de probabilité « ; 

3° une deuxième décision désignant pour une distribution (1) et pour 
un & déterminés, une portion de l'axe des x à laquelle est affectée 
une probabilité égale à «&, soit V,, cette portion de l’axe des x. 


Si nous considérons a — a, Comme une hypothèse l'énoncé ci-dessus est 
celui d'une hypothèse probabilitaire complètement formulée. Puisque nous 
envisageons la question dans l'ignorance de toute indication sur la valeur du 
paramètre, toute valeur de a de — co à + co, donnera une hypothèse pro- 
babilitaire complètement formulée. Supposons que l’une d'elles soit admise, 
soit a — a. Que va-t-on en faire ? On se trouve devant une loi probabilitaire 
complètement formulée. Nous supposons que le degré de probabilité choisi 
a est inférieur à 1/2; nous supposons de plus que le complémentaire V?, de 
V,, par rapport à l'axe des x tout entier est un intervalle d'un seul tenant. 
En vertu de «a < : les extrémités de V}, seront de part et d'autre de a: 


< 
4 
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nous les notons a, — let a, + 2. Nous arrivons donc à la conclusion suivante : 
«au degré de probabilité «, aucun résultat ne sera compris dans V,, ». 

Ceci posé, il est clair que toute hypothèse a = à pour laquelle Vins 
contiendra pas le résultat observé, x,, sera en contradiction avec le seul fait 
expérimental dont nous disposons. Par contre il n’y aura pas contradiction 
si x, appartient à V,,. Nous avons donc une raison pour distinguer, parmi 
toutes les hypothèses admissibles, deux classes : la première formée par celles 
qui ne conduisent pas à une contradiction avec le résultat observé, la seconde 
au contraire, par celles qui conduisent à une contradiction. De même que 
dans le premier exemple, on accordera une préférence à la première classe; 
elle constituera «l'intervalle de confiance». Pour les hypothèses de la pre- 
mière classe, x, appartient à V?,, c’est-à-dire 4€ V, . 

Le raisonnement que nous venons de faire dans ce deuxième exemple 
peut être rapproché de celui qui conduit à déterminer la position du canon 
dans le cas où, la. dispersion n’existant pas, on reste dans le domaine non 
probabilitaire. Dans ce dernier cas, en effet, on conclut que le canon est sur 
la perpendiculaire du point de chute, parce que toute autre position entrat- 
nerait une contradiction avec le résultat observé: on élimine la classe des 
hypothèses qui sont infirmées par le résultat observé. C’est précisément 
ce qui vient d’être fait dans le domaine probabilitaire ; la notion d'intervalle 
de confiance apparaît donc comme une extension naturelle de ce que l’on 
fait dans le domaine non probabilitaire sans que pour cela son aboutissement 
conserve la même signification. Dans le domaine non probabilitaire, en effet, 
la loi était tellement précisée que le résultat d'observation suffisait à la déter- 
miner sans qu'intervienne aucune part d’induction amplifiante; dans le 
domaine probabilitaire, au contraire, l'intervalle de confiance dépend des 
deux inductions amplifiantes qui déterminent, d’une part, la valeur de @& 
et, d'autre part, la position de V. 

En résumé, l'introduction de la notion de loi probabilitaire complètement 
formulée permet de présenter l’estimation d’un paramètre par un ensemble 
comme la détermination d’un ensemble de confiance comprenant toutes les 
valeurs du paramètre, et celles-là seulement, qui donnent les hypothèses 
probabilitaires complètement formulées dont les conséquences ne sont pas 
en contradiction avec les résultats observés. Enfermer le paramètre dans 
l'ensemble de confiance équivaut à accorder une préférence à cette classe 
d'hypothèses. 

Il va de soi qu’en traitant l'estimation d’un paramètre par un ensemble, 
ainsi que nous venons de l'indiquer et ainsi que nous venons de le faire sur 
deux exemples, nous avons limité le problème, en le précisant, et ceci par le 
fait même que nous sommes parti d’une loi probabilitaire complètement 
formulée. En effet, il ne s’agit plus d'arrêter inconditionnellement la valeur 
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d'un paramètre d’une distribution mais seulement de déterminer cette valeur 
en vue d'appliquer la loi probabilitaire complètement formulée qui sera 
définie non pas uniquement par la distribution dont il s’agit de préciser le 
paramètre mais encore par un degré de probabilité & et par une position 
de V, l’un et l’autre étant déjà fixés. En résumé, on détermine la valeur du 
paramètre en fonction de ce que l’on veut faire de la distribution que précisera 
cette valeur. 


8. VÉRIFICATION D'UNE HYPOTHÈSE 


Nous avons vu au paragraphe 7 comment, lorsque la recherche d’une loi 
probabilitaire complètement formulée est si étroitement limitée qu'il ne 
reste plus qu'un ou quelques paramètres à déterminer, on peut tirer de la 
connaissance des résultats observés une préférence pour une classe d'hypo- 
thèses probabilitaires complètement formulées. Nous supposerons encore 
dans ce paragraphe que la recherche de la loi est très avancée : qu'il ne s'agit 
plus que de choisir entre deux hypothèses ou deux classes d’hypothèses. 
Lorsque les deux hypothèses ne différeront que par la valeur d’un paramètre 
ou par les valeurs de quelques paramètres, nous nous trouverons en face 
d’un problème encore plus restreint qu’au paragraphe 7. Lorsque les hypo- 
thèses différeront par la forme analytique de la loi (cas non paramétrique) 
le problème sera, en un certain sens, plus large. 

Nous commencerons par poser le problème comme suit: 

Deux hypothèses probabilitaires complètement formulées sont en pré- 
sence et il s’agit d'éliminer l’une d'elles en s’appuyant sur la connaissance 
du résultat d’une réalisation effective de l'expérience. Nous supposerons: 
1° que les hypothèses portent sur la même variable ou sur les mêmes varia- 
bles; 2° qu’elles s’excluent mutuellement; 3° que le résultat observé donne 
une valeur de la variable ou un point de l’espace des variables. Lorsque l’une 
des hypothèses aura été éliminée, nous pourrons considérer, au moins pro- 
visoirement, que l’autre est devenue la loi probabilitaire complètement 
formulée que l’on est autorisé à appliquer. 

Nous envisagerons d'abord le problème analogue dans le domaine non 
probabilitaire c’est-à-dire lorsque l’on part de deux hypothèses non probabi- 
litaires. Ces deux hypothèses sont susceptibles de conduire à des lois non 
probabilitaires soit exactes, soit approchées. 

Soit H, et H, les deux hypothèses en présence et soit Æ l'espace des varia- 
bles communes sur lesquelles elles portent. 

Selon H, le résultat doit se trouver dans un ensemble Vs et non dans 


V, son complémentaire par rapport à Æ. 


10 
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Selon H, le résultat doit se trouver dans un ensemble Vi et non dans 
V, son complémentaire par rapport à E. 

La méthode d'élimination permet de conclure: 

en faveur de H, si le résultat se trouve dans la partie commune à Vs 
et à V,,xeV6Vi, 

en faveur de H, si le résultat se trouve dans la partie commune à V, 
etàa VW,xeVoVi: 

elle ne permet en aucune mesure de décider entre les deux hypothèses 
si le résultat se trouve à la fois dans V, et V, ou à la fois dans V5 et Vi, 
c’est-à-dire si ve Vo V, ou si xe Vo Vi. 

La méthode d'élimination ne présente aucune difficulté dans le domaine 
non probabilitaire. Elle consiste à poser une question à la nature: celle-ci 
ne répond jamais que par non. Le fait favorable à l'hypothèse n’est pas une 
réponse affirmative de la nature, c’est l’absence d’une réponse négative !. 

Nous allons maintenant nous placer dans le domaine probabilitaire. 
Peut-on procéder de la même manière lorsqu'il s’agit de deux lois proba- 
bilitaires complètement formulées ? Supposons donc que H, et H; soient 
deux hypothèses probabilitaires complètement formulées. Certes, le raisonne- 
ment qui précède peut être formellement suivi mais les conclusions auxquelles 
il aboutit sont-elles encore valables ? Un exemple simple va montrer qu’elles 
ne sont pas toujours acceptables. Nous reprendrons le deuxième exemple 
du paragraphe 7 et, pour fixer les idées, nous ferons appel à l'interprétation 
par le tir au canon. Dans le domaine non probabilitaire tout d’abord, la 
méthode d'élimination conduit à rejeter une des deux positions possibles du 
canon ou alors ne permet aucune conclusion. 

Dans le domaine probabilitaire, nous allons considérer deux cas diffé- 
rents : 


Premier cas. — L'hypothèse H, est définie par: 


19 la distribution (1) avec le paramètre a — 0; 

20 par un degré de probabilité a; 

30 par le choix pour VS d’un intervalle entourant symétriquement la 
moyenne 0: P(V5) = 1 — a. 


La définition de Æ, ne diffère de celle de H, que par la valeur de para- 
mètre qui n’est plus nulle mais égale à a. 


Pour certaines valeurs de a, la méthode d'élimination ci-dessus décrite 
donne 


? C£ E. Go8Lor, Traité de Logique. Septième édition, Paris : Colin, 1941, p. 296. 
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et permet de conclure en faveur de A, si x tombe dans l'intervalle de gauche 
* Û . 0) , ; 

(Vo V:) et en faveur de H, si + tombe dans l'intervalle de droite (V, Vi), ce 

qui est, au moins apparemment, acceptable. 


Deuxième cas. — Les hypothèses H6 et Hi sont définies respectivement 
comme /1, et H, dans le premier cas, avec la seule différence que ce sont les 
intervalles V et non les intervalles V* qui entourent symétriquement la 
moyenne. Avec la même valeur de a et toujours avec la même méthode 
d'élimination, on obtient 


0 a 
> ---<+ 
V5 Vo 76 
a ——— 
Vi Vs I 
—+ RS 
VoVi Vo Vs 
fig. 2 


ce qui conduirait à conclure en faveur de Æ, si x tombe dans l'intervalle de 
droite (V5 V,) et en faveur de F1, si x tombe dans l'intervalle de gauche (V, Vi 
Ces conclusions sont manifestement inacceptables. 

Alors que dans le domaine non probabilitaire la méthode d'élimination 
s'applique sans difficultés, nous voyons qu'il n'en est plus de même dans 
le domaine probabilitaire. Ainsi se pose la question: dans quel cas pou- 
vons-nous appliquer la méthode d'élimination ? 

Introduisons provisoirement la probabilité a priori p que l'hypothèse FH, 
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soit la vraie et son complément à l’unité 1 — p qui sera la probabilité 
a priori que l'hypothèse FH, soit la vraie. 

La méthode d'élimination nous donnera une conclusion juste, c’est-à-dire 
si H, est vrai nous conclurons en faveur de H, et si H, est vrai nous conclurons 
en faveur de H,, avec la probabilité 


8; = p Po(Vë Va) + (1 — p) Pi(Vo Vi) 


Po(V5 Vi) étant la probabilité associée à VGV\ selon la distribution qui 
définit H,, 
P;(VoVi) étant la probabilité associée à VQVi selon la distribution qui 
définit H,. 

La méthode d’élimination nous donnera une conclusion fausse, c’est-à-dire 
si H, est vrai nous conclurons en faveur de H, et si H, est vrai nous conclurons 
en faveur de Æ,, avec la probabilité 


Sy — p Po(VoVi) + (1 — p) P1(Vi Vi) 


P5(Vo Vi) étant la probabilité associée à V,Vi selon la distribution qui 
définit Æ,, 
P;(V5Vi) étant la probabilité associée à VSV; selon la distribution qui 
définit H,. 

Reprenons les deux cas envisagés ci-dessus. 

Dans le premier et selon la figure 1, on voit immédiatement 


Po( V5 Vi) = P1(Vo Vi) = 1 — a d'où 8, =1—a 
et 
Po(Vo Vi) QE P:(V5 Vi) C2 d’où d} <a. 


H y a donc, quelle que soit la probabilité a priori p, une grande probabilité 
(8, =1— a) pour que les conclusions tirées de la méthode d'élimination 
soient justes et une petite probabilité (8; < «) pour que les mêmes conclu- 
sions soient fausses. 

Dans le deuxième cas et selon la figure 2, les constatations sont bien 
différentes : 


Po(VoVi) et P;(VoVi) sont inférieures à & d’où 8; < 
Pia Vi) PV V) Pa d'où 


Il y à donc, quelle que soit la probabilité a priori p, une petite probabilité 
pour que les conclusions tirées de la méthode d'élimination soient fausses 


($; — a) mais il y a une probabilité plus petite encore pour que ces conclu- 
sions soient justes. 
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La comparaison des deux cas explique pourquoi, dans le premier les 
conclusions sont acceptables, alors qu’elles ne peuvent l'être dans le second. 
On constate donc que, dans le domaine probabilitaire, l'application de la 
méthode d'élimination devra être contrôlée par l'examen des valeurs de 5; et 
de &,. Il est facile de voir que o, ne peut de. a, quel que soit p. Ts 
validité de la méthode dépendra donc surtout de $&;. Elle sera bonne lorsque 
l'on pourra assigner à &; une borne inférieure voisine de l'unité; elle cessera 
d’être applicable Dies 9; sera inférieur à $, quel que soit p. 

L'étude des probabilités S; et &, permettra de caractériser la valeur de 
la méthode d'élimination, c’est-à-dire, en d’autres termes, la qualité du 
«critère statistique »; elle pourra conduire à une classification des critères 
statistiques ; elle ouvrira la discussion de la valeur du critère selon la position 
de l’ensemble V. Cette étude et les discussions auxquelles elle pourra 
conduire sortirait de loin du cadre de cet article et nous ne pouvons ici que 
les mentionner. 

Dans les exemples que nous avons considérés jusqu'ici ne se trouvaient 
en présence que deux hypothèses mais le raisonnement peut être conduit 
à peu près de la même manière lorsqu'il s’agit de distinguer entre deux classes 
d'hypothèses : il aboutit encore à la nécessité d'examiner les deux probabilités 
5; et S,. Parmi les problèmes qui se présentent lorsque l’une des classes se 
réduit à une seule hypothèse, figure le problème dit « de la déviation signi- 
ficative »; de nouveau, nous nous bornerons à le mentionner. 

Il est à peine besoin de rappeler que, dans tout ceci, nous ne faisons 
aucunement appel à une connaissance de la probabilité a priori, celle-ci n’a 
été que provisoirement introduite dans notre raisonnement et ne subsiste 
pas dans son aboutissement. 

Il faut placer ici une remarque analogue à celle qui figure à la fin du 
paragraphe précédent. En partant d’une loi probabilitaire complètement 
formulée, nous avons limité et précisé le problème du choix entre deux 
hypothèses. En effet, il ne s’agit plus de décider entre deux distributions 
d’une manière absolue mais seulement de choisir l’une d'elles sachant que 
ce choix conduira à appliquer une loi probabilitaire complètement formulée 
qui sera définie non pas uniquement par la distribution choisie mais encore 
par un degré de probabilité & et par une position de V, l'un et l’autre étant 
déjà fixés. En résumé, on décide entre les deux hypothèses en fonction de 
ce que l’on veut faire de l'hypothèse qui sera retenue. 

Ainsi, la solution apportée au problème dépend essentiellement de deux 
éléments qui restent les objets d’inductions amplifiantes (cf. paragraphe 5): 
le degré de probabilité & et la position de V. Ceci suflirait à expliquer que les 
problèmes de vérification des hypothèses restent l'objet de controverses 
et n’admettent pas des solutions qui s'imposent absolument. De plus, la 
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qualité du critère dépendra des valeurs de $&; et &; par conséquent sera 
soumise à une large part d'appréciation individuelle. On pourra même être 
amené à appliquer des critères avec des valeurs de $; peu satisfaisantes : 
on devra les regarder comme des essais ne pouvant conduire qu’à des résultats 
provisoires. 

On peut encore expliquer pourquoi, dans ce paragraphe, nous avons 
opposé deux hypothèses ou deux classes d’hypothèses et non pas cherché 
à vérifier une seule hypothèse indépendamment de toute autre; seul le 
problème ainsi limité est accessible au raisonnement, la recherche d’une 
hypothèse indépendamment de toute autre dépend essentiellement d’une 
induction amplifiante et ne peut être posée comme un problème précis qu’en 
la reliant à d’autres éléments. 

Dans ce paragraphe, en résumé, l'introduction de la notion de loi proba- 
bilitaire complètement formulée a permis de poser avec netteté les problèmes 
de vérification des hypothèses, d'introduire la méthode d'élimination 
parallèlement à ce que l’on fait dans le domaine non probabilitaire, d’aper- 
cevoir les limites dans lesquelles cette méthode peut être appliquée, et enfin 
de mettre en évidence une série de problèmes qui restent ouverts. 


9. REMARQUES COMPLÉMENTAIRES 


Au paragraphe 3, nous avons fait reposer sur la convention terminale le 
processus qui permet de tirer d’une loi probabilitaire complètement formulée, 
une de ses applications. Sans revenir sur l'importance de la convention termi- 
nale dans le raisonnement probabilitaire et sur la manière dont elle y inter- 
vient remarquons qu’elle implique ce qui a été appelé le lemme de Cournot 1: 
« Les événements ayant une petite probabilité se réalisent rarement, » La 
nécessité de recourir à une proposition de ce genre a été aperçue bien avant 


Cournot. Lorsque Descartes ? distingue la certitude « de tout ce qui est dé- 


montré dans la mathématique » de la certitude morale, il reconnaît déjà 
que la certitude morale est «suffisante pour régler nos mœurs, ou aussi 
grande que celle des choses dont nous n'avons point coutume de douter 
touchant la conduite de la vie, bien que nous sachions qu’il peut se faire, 
absolument parlant, qu’elles soient fausses ». Les exemples qu’il donne 
montrent qu’il s’agit bien dans sa pensée de ce caractère essentiel du raisonne- 
ment probabilitaire qui apparaît nettement lorsqu'on met en évidence la 
convention terminale. Ainsi, en nous plaçant dans le cadre de l'expérimenta- 


? Cf. Rapport sur l’estimation statistique des paramètres, loc. cit., O. ANDERSON, p. 55. 
? Les principes de la philosophie, 4e partie, nos 205 et 206. 
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tion, en nous bornant aux probabilités qu’il est possible d'exprimer numé- 
riquement, par le recours à la convention terminale, nous décidons de régler 
nos actions (c’est-à-dire la marche ultérieure de l'expérimentation) en 
admettant que les événements qui correspondent à l’ensemble V ne se pro- 
duisent pas. 

Une question se pose naturellement. En procédant comme nous l'avons 
fait, n’avons-nous pas limité le champ des applications des probabilités ? 
En existe-t-il qui échappent à notre analyse ? On peut se demander s’il existe 
parmi les applications des probabilités deux catégories : les unes qui ressor- 
tissent à la connaissance scientifique et les autres seulement à la connaissance 
vulgaire. On peut chercher à créer une théorie appropriée englobant les unes 
et les autres. On peut, par contre, redouter d'introduire des méthodes scienti- 
fiques dans des cas où elles peuvent être inutiles et même dangereuses, 
puisqu'elles conféreraient à tort l'impression de sécurité qui résulte de 
l'emploi des mathématiques. On peut se demander s’il n'existe pas un do- 
maine où s'applique une notion intuitive de probabilité fondée sur des habi- 
tudes psychologiques, par exemple, sur la confiance qu’apporte la répétition 
et si ce domaine ne doit pas être distingué de celui des applications scienti- 
fiques des probabilités. Là encore les probabilités n'ont pu accorder leurs 
points de vue; les opinions divergent sensiblement. Je me borne à poser la 
question. Il va de soi, toutefois, que la validité de l'analyse qui précède ne 
peut être mise en cause, dans le cadre où elle s'applique, parce qu’elle laisse- 
rait échapper certaines applications des probabilités. 

Une autre question qui ne diffère peut-être pas essentiellement de la 
précédente est celle que pose la distinction entre probabilités subjectives et 
probabilités objectives. À un certain point de vue les probabilités que nous 
avons introduites sont subjectives, cependant le sujet est non pas l’expéri- 
mentateur mais l’expérimentation, et cela ne peut nous empêcher de consi- 
dérer qu'il existe des degrés de probabilités objectifs valables, par exemple, 
pour toute une série d’expérimentations dans un laboratoire *. 

Nous nous sommes constamment attaché à distinguer le domaine non 
probabilitaire du domaine probabilitaire mais la séparation a été établie 
d'une manière interne par l'analyse épistémologique des raisonnements 
intervenant dans les deux cas. Il est inévitable de chercher à caractériser 
chacun des domaines d’une manière externe. En d’autres termes, dans quels 
cas fera-t-on appel aux probabilités ? La question a été souvent envisagée. 
Dans la préface de son Calcul des Probabilités, Henri Poincaré assimile les 
cas où s'appliquent les probabilités à ceux dans lesquels « de petites causes 
produisent de grands effets ». D'autre part, Bergson associe au hasard l'inter- 


1 Revue de Métaphysique et de Morale, avril 1948, p. 133. 
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vention d’un élément humain: «il n’y a de hasard que parce qu'un intérêt 
humain est en jeu et parce que les choses se sont passées comme si l’homme 
avait été pris en considération, soit en vue de lui rendre service, soit plutôt 
avec l'intention de lui nuire. »1 

Dans le cadre où nous nous sommes placé, la question peut être posée 
ainsi: Dans quels cas nous dirigerons-nous vers une loi probabilitaire ? 

Si l’on remarque qu’en posant une distribution nous introduisons toute 
une famille de lois probabilitaires complètement formulées, qui dépendent 
de & et de la position de V, on peut dire ce qui suit: Lorsqu'il sera possible 
d'associer à une expérimentation une loi non probabilitaire, par conséquent 
unique, on s’empressera de le faire. Lorsqu'on ne réussira pas à recourir à 
une loi non probabilitaire, c’est-à-dire lorsque l’on aura renoncé à faire appel 
à une loi unique, on sera naturellement amené à introduire toute une famille 
de lois. Dans le premier cas on est plus exigeant, on cherche une loi qui 
s’ajuste à l’expérimentation; dans le second cas, on se contente, ne pouvant 
faire mieux, d'introduire quelque chose de moins déterminé, de plus vague 
mais aussi de plus compréhensif : toute une famille de lois. 


L. FÉRAUD. 


1 Voir Les Deux Sources de la Morale et de la Religion. Genève: Skira, page 142, Le 
cours professé au Collège de France mentionné en note ne semble pas avoir été publié. 
Il serait fort intéressant de pouvoir se reporter à des notes prises à ce cours. 
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CONNAISSANCE ET STOCHASTIQUE 


1. LES IMAGES D'UNE RÉALITÉ INCONNUE 


Le problème de la connaissance de la vérité est l’une des questions 
éternelles de lhumanité. Le point de vue qui, malgré son apparence super- 
ficielle, doit être le plus profond — celui de l’adepte des mathématiques 
pures — peut être interprété comme suit. Afin de percevoir la nature des 
choses, les savants s'occupent de construire des schémas abstraits, appar- 
tenant à la sphère de l'intelligence humaine, disons au monde B, qui contient 
les images du monde À des phénomènes, tels que nous les observons. Les 
schémas du monde B, d'une nature purement logique, sont supposés exacts 
en eux-mêmes, ce qui signifie qu'ils sont correctement déduits des axiomes 
admis. D'autre part, il est évident que ces schémas ne pourront jamais 
être que des approximations imparfaites des phénomènes observés. En per- 
fectionnant nos schémas, nous obtiendrons des approximations successives, 
de plus en plus en accord avec les observations, mais on n’obtiendra jamais 
une correspondance absolue entre les calculs et les phénomènes. J’ai exprimé 
ce fait fondamental de la théorie de la connaissance en disant que la réalité R 


est, par définition, l’ensemble des schémas-limites du monde B, ou plutôt 


d’un monde C qui ne contient que les schémas corrects du monde B, car 
il y a toujours, dans le monde total des idées, un nombre de constructions 
erronées — contradictoires en elles-mêmes — qu'il faut éliminer. Les sys- 
tèmes de philosophie naturelle qui prétendent résoudre l'énigme de l’exis- 
tence apparaissent, dans cet ordre d'idées, comme des images d'une réalité 
inconnue, imparfaites mais tendant indéfiniment vers la vérité. 

Or cette esquisse d’un système philosophique qui prend son point de 
départ dans les mathématiques pures, émanation abstraite de la raison 
humaine, a évidemment besoin d’être détaillée et complétée dans beaucoup 
de directions. Surtout, il faut l’approfondir afin d’y inclure les parties très 
intéressantes de la Physique moderne qui s'occupent de la philosophie natu- 
relle la plus profonde, telles que la théorie de la relativité et la théorie des 
quanta. Dans cet exposé, je vais traiter une petite partie seulement des 
questions qui se posent. 

Il faudra d’abord discuter le caractère de l’approximation dite s{ochas- 
tique d’un schéma abstrait. Nous allons aussi rechercher s'il ÿ a, comme le 
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prétend la théorie des quanta, des limites absolues de l'exactitude avec 
laquelle on peut observer un phénomène naturel. D'autre part, il faut aussi 
préciser l’énoncé sur l'exactitude interne des schémas mathématiques, 
c’est-à-dire examiner à quel degré on peut exclure les contradictions intrin- 
sèques des mathématiques d’où sont dérivées les constructions explicatives 
de la Physique. Les antinomies du monde idéal B, conséquences paradoxales 
des axiomes apparus comme évidents lorsqu'ils furent admis comme bases 
de la théorie, sont-elles une menace inévitable qui puisse anéantir le monde B? 
Vont-elles transférer successivement toutes ses constructions au «cime- 
tière des idées » D — B —C, de sorte que le monde C, l’ensemble des schémas 
rigoureux, ayant un sens rationnel, se trouvera finalement tout à fait vide? 
Cette hypothèse d’une catastrophe générale de la connaissance humaine, 
nous n’y croyons guère. Mais la question mérite évidemment d’être examinée 
et réexaminée, Nous voulons encore dire quelques mots sur le parallélisme 
de deux différentes explications mathématiques d’un seul phénomène phy- 
sique, contradictoires entre elles, mais qui sont néanmoins admises toutes 
les deux pour satisfaire aux besoins du calcul. Les conséquences métaphy- 
siques d’un tel «complémentarisme » (l’un des schémas étant nécessaire 
comme complément de l’autre lorsque celui-ci fait défaut) peuvent sembler 
comparables à la catastrophe émanant d’une contradiction inévitable dans 
l’arithmétique elle-même. 


2. LA VÉRITÉ STOCHASTIQUE 


On sait que la théorie des probabilités joue un rôle fondamental dans 
la théorie des observations, aucune détermination d’une quantité physique 
ne pouvant être effectuée sans des erreurs aléatoires qui obéissent aux règles 
des jeux de hasard. Toute constante de la Physique est donc donnée avec 
une incertitude plus ou moins grossière. L’essaim des observations particu- 
lières forme un sujet d'étude de la statistique ; les lois qu’on trouve corres- 
pondent aux lois des grands nombres qui régissent les loteries : elles sont 
stochastiques. L’incertitude très marquée qui se trouve dans les jeux de hasard 
est reproduite en qualité, mais à un degré un peu diminué, dans les phéno- 
mènes économiques, sociologiques et biologiques, mais elle se trouve encore, 
réduite à des proportions plus modérées, dans les sciences physiques les 
plus exactes. 

Nous pouvons illustrer le point de vue stochastique par le raisonnement 
suivant qui établit un indéterminisme inévitable et définitif dans l’obser- 
vation d’une fonction empirique. (Voir note À.) Considérons deux variables, 
£ et 7, dont on a observé, un très grand nombre de fois, les valeurs corres- 
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pondantes. On sait bien que l’essaim des points observés se présente sous la 
forme d’une «table de corrélation» F(x,y); la différentielle F(x, y) dxdy 
désignant la probabilité pour que, simultanément, £ tombe entre x et 
æ + dx et 7 tombe entre y et y + dy. Dans les cas typiques, on peut 
constater une simple linéarité où la fonction de corrélation, après un choix 
convenable de l’origine, se réduit à F (x, y) — £ exp — (ax? — 2Bxy + yy?), 
0 — ay —fB?>0. On voit alors que la liaison fonctionnelle entre £ et 
peut être représentée par une droite quelconque entre les deux «lignes de 
régression » æ — y tg 0, et x — y tg 0, données par les observations. En 
choisissant un nombre arbitraire 9 dans l'intervalle 0, < 0 < 0,, on peut 
poser 
£ = ut (disp. 6), 7 = vt (disp. 02), t — 0 (disp. 3), 


ces équations stochastiques signifiant que les variables sont liées par des 
cloches gaussiennes caractérisées par les dispersions 01, 0,.04 et les cons- 
tantes uw et » étant telles que w/r — tg 0. Si l’on choisit 0 près de la limite 
inférieure 0, , la dispersion 0, de & devient infiniment petite, toute l'incerti- 
tude étant concentrée sur la relation 9 — »t (disp. 1/V2a). Réciproquement, 
si 0 est choisi au voisinage de 0, , o, devient petit et l'incertitude est loca- 
lisée à l'équation £ — ut (disp. 1/28). Voilà donc une sorte de complé- 
mentarisme réglant l'indéterminisme dans la relation fonctionnelle de deux 
variables empiriques. Le phénomène est tout à fait général. Il n'arrive 
jamais dans la nature que la fonction enregistrée par les observations appa- 
raisse sans erreurs accidentelles, 


3. NATURA NON FACIT SALTUS 


La question de la nature continue ou discontinue des phénomènes est 
très ancienne. Ce serait une tâche séduisante de suivre à cet égard les opinions 
à travers les âges, depuis le philosophe riant d'Abdère jusqu'aux mathéma- 
ticiens et physiciens de notre époque. Mais pour la philosophie moderne, 
c'est sans doute le chemin étroit des mathématiques pures qui est le plus 
intéressant. Lorsqu'on étudie les paradoxes de Zénon, par exemple, qui 
concernent la possibilité d'un mouvement, c’est surtout la signification des 
démonstrations qu’il faut pénétrer, tandis que l’énigme de la contradiction 
ne nous semble plus trop dificile, En effet, elle dépend de ce qu'on admet 
que la somme d’un nombre infini de «moments » doit être une durée infinie. 
Le paradoxe a donc disparu dès que l'Analyse a réussi à établir la notion 
de la limite finie d'une somme illimitée. Nous savons qu'il faut user de pré- 
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cautions dans cette voie. Mais il semble que l’ambition de Zénon, en cons- 
truisant les paradoxes, ait été de réduire à l’absurde les opinions des pytha- 
goriciens sur les « monades » de l'Univers. En effet, si le temps a, lui aussi, 
ses atomes ou monades finis et indivisibles, eux aussil, le paradoxe du 
mouvement existe. 

L'analyse mathématique construit des schémas qui sont le plus souvent 
continus. Mais il n’y a évidemment pas de difficulté à construire aussi des 
schémas discontinus si l’on en a besoin. Il y a aussi dans l’analyse beaucoup 
d'exemples de fonctions discontinues, tel le nombre de racines réelles d’une 
équation algébrique, etc. Dans la statistique, dans la théorie de l’hérédité 
de Mendel, il y a des fonctions qui ont un caractère discret. Or il est possible 
de comprimer en une seule forme les cas continus et les cas discontinus, 
en se servant de l'intégrale de Stieltjes ou de la théorie des distributions 
générales. Il n’y a donc là aucune antithèse inévitable. (Voir la note À.) 

Néanmoins le problème ancien de la continuité a été ressuscité dans 
notre époque. Il a pris deux nouveaux aspects que nous voulons discuter. 
Le premier a été exprimé par l’énoncé, émanant de Hilbert, que le paradoxe 
n’est pas résolu définitivement par la notion de la limite finie d’une somme 
infinie, car il reste à expliquer comment le résultat d’un processus illimité 
peut être atteint dans la réalité. Ces mots doivent se référer au grand pro- 
blème du continu mathématique ou de l'infini «actuel » dont il s’agit dans 
la théorie des ensembles abstraits et des fondements logiques de l’arithmé- 
tique. 

L'autre aspect est plus difficile à saisir. Il se rapporte à la théorie générale 
de la Physique. On se demande si les schémas qui représenteront les phéno- 
mènes devront finalement contenir des discontinuités. Il ne s’agit plus d’une 
contradiction inévitable dans le monde B lui-même, ce qui serait à craindre 
si les essais de construction des bases logiques de l’analyse amenaient néces- 
sairement des antinomies, qui anéantiraient le monde C, mais, du fait que 
toute explication de l'Univers serait obligée de s’arrêter devant une barrière 
insurmontable, où se trouveraient les «atomes » au sens de Démocrite, 
fussent-ils des protons ou des électrons ou quelques autres fantômes de la 
Physique moderne ou future. Tout système continu de la nature ferait 
nécessairement faillite, et, en outre, les recherches qui viseraient à aller 
au-dessus de cette borne ultime seraient condamnées à échouer, à cause 
des erreurs inévitables dans la perception des phénomènes. 

Tel est, comme on le sait, la situation, conséquence de nombreuses 
recherches modernes de la théorie des quanta. Nous allons examiner ces 
recherches dans les paragraphes suivants. Evidemment on peut y voir ou 


1 Voir Ep. aux Cor. 1, 15/52: &v tou , êv Gin 6g0auo . 
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non un aspect moderne des antinomies de Zénon et de l’atomisme de Démo- 
crite. Peut-être ce point de vue apparaît-il comme une préciosité littéraire, 
inutile à la Science moderne qui a bien le droit d’être fière de sa technique 
bienfaisante ou destructive. Mais il est aussi vrai que le problème dont il 
s’agit est de nature à le lier à la grande tradition philosophique de l'humanité. 


4, LA FORMULE DE L’UNIVERS 


L'idée d’une formule qui expliquerait d'une manière compréhensive la 
plupart des phénomènes de la nature, si l’on excuse l’exagération de l'expres- 
sion, est une conséquence immédiate de la vue rationnelle et antimystique 
qui caractérise notre Science moderne. 

À vrai dire, c’est surtout l’existence de la gravitation générale, décou- 
verte par Newton et complétée plus tard par la théorie du potentiel newto- 
nien, qui a nourri cette idée fantastique d’un schéma général qui pourrait 
nous fournir l'explication du monde. En effet, la formule d'attraction n'est 
pas elle-même loin de correspondre à l’idée d’une formule universelle. Tout 
le monde stellaire, le système planétaire, les étoiles fixes et les vagabondes 
de l’espace, semblent obéir sans exception à cette loi. Il est vrai qu'il y 
avait toujours des difficultés dans cette théorie, et l’extrapolation aux condi- 
tions asymptotiques semblait suggérer des hypothèses étranges sur la dis- 
tribution de la matière pondérante à des distances extraordinaires, inacces- 
sibles, toutefois, aux observations. Or l’universalité de la gravitation est 
néanmoins merveilleuse. Dans le monde des grandes distances, son règne 
était absolu, dans les domaines terrestres elle déterminait toute question de 
poids. Seulement en cherchant à l'appliquer au monde des infiniment petits 
(dans le sens figuré), on a trouvé des désaccords sérieux. Ici aussi, les orbites 
planétaires sont encores admises théoriquement, quoique l'on se figure dans 


‘ce cas que la loi d'attraction est une autre, tout en conservant la même forme. 


Cependant, la théorie de la relativité a été fondée, et on s’est proposé 
d'appliquer les modifications qui en dérivèrent à la théorie du potentiel. 


‘On sait que le résultat, qui doit évidemment conserver la théorie du poten- 


tiel newtonien comme un cas de dégénérescence de premier ordre, est très 
compliqué, mais que les écarts par rapport au cas newtonien sont considérés 
comme l'appui le plus important pour la théorie de la relativité elle-même 
(précession du périhélie de Mercure 1). On peut dire que la gravitation est 
l'action du champ métrique ; on a réussi à déduire l'attraction universelle 
de la géométrie elle-même. Ce résultat, qui aurait rempli de joie les philo- 


1 Voir H. Wevz, Raum. Zeit. Materie. Berlin 1918, p. 181. 
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sophes grecs, est cependant presque incompréhensible, à cause de son carac- 
tère abstrait, sauf pour un petit nombre de spécialistes. La géométrie admet 
un espace (x, y, z, t) défiguré, où les masses disparues du monde newtonien 
réapparaissent comme des anomalies de la courbure de l’espace. Cette sinuo- 
sité de l’espace géométrique, il faut qu’on l’obtienne moyennant des obser- 
vations. Malgré son caractère compliqué, la théorie de la relativité est un 
essai grandiose de remplacer la formule universelle de Newton par une 
autre, plus adéquate. Le champ électro-magnétique de Maxwell y entre 
aussi. Toutefois, en tenant compte des phénomènes atomiques, de ceux de 
l'analyse spectrale des éléments et de la radioactivité, la théorie de la relati- 
vité ne s’est pas montrée suffisante. 

Il a donc fallu créer la théorie des quanta et l’on a éprouvé beaucoup de 
difficultés à coordonner cette théorie — qui eut besoin de chercher des expli- 
cations théoriques de beaucoup de faits discontinus — à la formule univer- 
selle de la relativité. Ainsi on peut constater que l’on est toujours en tram 
de bâtir la théorie générale qui contiendra les explications de tous les faits 
connus jusqu'ici. Evidemment, ce sera toujours la situation : on aura à se 
contenter des schémas imparfaits, approximations successives de la vérité. 

Dans les parties d’un schéma général qui nous apparaissent déjà comme 
bien fondées, on trouve des indications d’une discontinuité irréparable, 
et l’on croit discerner une borne définitive de la connaissance de la nature. 
C’est ce que nous allons maintenant discuter. 


5. LE COMPLÉMENTARISME PROPREMENT DIT 


Supposons qu’on ait démontré que dans le nouveau schéma universel, 
qui est en construction, la lumière doive toujours être représentée par un 
mouvement qui satisfait à l'équation des ondes. (Voir les notes À à @.) On 


sait que l’on obtient une solution particulière de cette équation en posant 


dans le cas schématique d’une seule variable, 


Vo — A(p) exp ip(x — ct)/R — p(p) exp ipx/h, 


c étant la vitesse de l'onde, À une constante et p un paramètre. En sommant 
(intégrant) un grand nombre d’ondes particulières avec différents p, on 
obtient une solution assez générale 
+co 
pa = Î Vodp 
V2zh RE 


— CO 


LA CONNAISSANCE PROBABLE 159 


En considérant g(p) comme une vibration génératrice, on voit que y(x) 
et @(p) sont les adjointes laplaciennes l’une de l’autre, et en admettant 
que la distribution des p ou le carré de l'amplitude A (p} — p(p) p*(p) 
est une cloche gaussienne autour de l’origine (p — 0), p — 0 (disp. 6), on 
obtient le mouvement qui est, dans un certain sens, le plus concentré, le 
produit des dispersions étant minimum : 


+ CO + oo ÿ 
| [ pp) p*(p) ( — p} dp : | p(x) w* (x) (x — x)? à TE - = : 


On peut démontrer que, pour tout autre choix des ondes génératrices, 
on obtient un produit plus grand. On a donc trouvé que si la dispersion 
de p autour de sa valeur moyenne est petite, la dispersion de x autour de 
sa valeur moyenne (à un certain moment) ne peut pas être petite simulta- 
nément et vice versa. C’est l’indéterminisme de Heisenberg. 

Lorsqu'il s’agit du mouvement vibratoire, l’indéterminisme n'apparaît 
pas encore, mais il devient visible lorsque la théorie des quanta veut changer 
l’onde lumineuse en un corpuscule, le photon. (Voir la note Z.) L’équation 
de l’onde élémentaire 


y = À exp — 2xi (tk, + yk, + 2k, — vt), 


où (k;, k» k.) est le vecteur dirigeant le mouvement, » la fréquence de 
nœuds par unité du temps, k — V2 KR + Ki — 1/1 la densité de nœuds 
par unité de longueur, est transformé en 

2 


xi 
RER (@Px + YPy + ZP: — Et), 


Où (Py Py P-) est l'impulsion du photon, E son énergie. L’indéterminisme 
aura donc la signification que l'impulsion et le lieu d’un photon ne peuvent 
pas être déterminés tous les deux avec une approximation illimitée. 

On sait que nous devons à la lumière nos connaissances les plus exactes 
sur l’univers. C’est surtout l’interférence des ondes qui nous a fourni les 
observations les plus précieuses, entre autres celles qui ont conduit à la 
théorie de la relativité et ont donné la clef de l’atomistique. (Voir la note O). 
Rien n'est évidemment altéré dans cet état de choses. Mais lorsqu'on a pour 
ainsi dire déchiré la lumière, en la considérant comme un corpuscule carac- 
térisé, ainsi que tout point matériel, par ses coordonnées et par son impulsion, 
rentrant dans la fonction hamiltonienne de l'énergie, il ne semble plus éton- 
nant que l’on ait à se résigner quant à l'exactitude de l'une des parties 


\ 
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qu’on a créées. Mais on pourrait soupçonner que l’indéterminisme en question 
est dû à une division de la lumière en deux composantes qui n'existent pas 
dans le monde réel. 


6. L’ATOMISME MODERNE 


Y a-t-il un mot dont la signification ait autant changé que » ätouos des 
Grecs, l’indivisible brique dont l'Univers était construit? L’atome de notre 
Science, c’est plutôt un orgue immense qui peut produire, avec un nombre 
illimité de sons, un concert de vibrations, obéissant à une doctrine d’harmo- 
nies qui ressemble le mieux aux accords célestes d’un Kepler. 

C’est Heisenberg qui a essayé de représenter les vibrations possibles 
d’un atome par une matrice, c’est-à-dire par un double système de fonctions, 
donnant les ondes élémentaires, et de soumettre ces matrices aux mêmes 
lois auxquelles obéissent les coordonnées ou les impulsions d’un système 
de points matériels. En désignant par q une matrice de coordonnées et par p 
la matrice correspondante d’impulsions, on trouve que ces complexes 
doivent satisfaire aux équations canoniques de la mécanique rationnelle, 
généralisées à ce domaine de nombres complexes. En effectuant des calculs 
avec les matrices, on observe que la multiplication n’est plus commutative, 
mais qu’on doit poser 


k 
pq—ap=;: 1; 


ï 
où 1 désigne une matrice unitaire, ayant des 1 dans la diagonale et O0 ailleurs. 
(Voir la note X1.) 

Toute cette théorie a un caractère manifestement discontinu. Et les 
phénomènes qu’il faut expliquer, les longueurs d’ondes des lignes spectrales 
d'un élément chimique, les propriétés de ces éléments, les phénomènes 
radioactifs, sont aussi d’une apparence discontinue. Il est donc bien naturel 
que l’arithmétique joue un rôle important dans la théorie des quanta. 
D'autre part, en contemplant, avec une grande admiration, il est vrai, 
les mouvements capricieux des électrons qui forment le système de « l'atome » 
d’un élément, on se sent persuadé que nous sommes encore très éloignés 
du schéma qui peut satisfaire à nos exigences de simplicité : en interprétant 
les phénomènes, nous ne devons pas introduire dans le schéma mathéma- 
tique des complications qui viennent de nous-mêmes. 

Est-ce que l’on peut espérer que les discontinuités nécessaires puissent 
s'établir d'une manière naturelle à partir des nombres caractéristiques qui 
se présentent dans certaines équations différentielles ? Il est vrai que nous 
connaissons beaucoup d'équations du type de l’équation des ondes qui ont 


LA CONNAISSANCE PROBABLE 161 


la propriété d'admettre des solutions simples seulement pour des valeurs 
discrètes d’un paramètre (identifié, dans la théorie des quanta, avec l'énergie). 
Il'est aussi vrai que lorsqu'on veut faire correspondre les nombres caracté- 
ristiques de l’équation des ondes modifiée avec les observations de vibrations 
spectrales, on rencontre des difficultés qui ont obligé les auteurs à faire des 
considérations inattendues. On n’éprouve pas la sensation de nécessité divine 
qui caractérise la formule de Newton ou la transformation de Lorentz- 
Einstein ; on a l'impression d’une construction habile, mais trop humaine. 
En tous cas, le temps des tâtonnements ne semble pas encore passé. Mais 
on peut constater que l'existence même des nombres caractéristiques et 
des systèmes orthogonaux de solutions caractéristiques laisse espérer que 
l'on aura un jour une synthèse parfaite entre la vue continue sur les phéno- 
mènes, exprimée par des équations différentielles, et les propriétés atomiques 
que l’on a trouvées pour les éléments chimiques, et dont la richesse est si 
admirable. L’antithèse continuité-discontinuité ne nous semble pas insoluble. 

Quant aux deux explications parallèles de la lumière, la théorie ondula- 
toire et celle des quanta, cette antithèse va disparaître en même temps. 
Nous ne pouvons être satisfaits d'avoir besoin de deux chaînes parallèles, 
partiellement contradictoires, correspondant à un même phénomène. Dans 
le monde C des schémas corrects, cette ambiguïté n'aura pas lieu. 


7. CONCLUSIONS 


L'évolution admirable de la Physique dans les dernières dizaines d'années 
nous a donné la nouvelle mécanique relativiste et la théorie des quanta, 
créations qui ont bouleversé les anciens schémas de la science naturelle. 
Cepeudant, la révolution n’a pas été aussi destructive que l'ont craint 
beaucoup de savants. La nouvelle mécanique conservera toujours comme 
première approximation la mécanique newtonienne, et la théorie discon- 
tinue des atomes et des quanta, qui nous a révélé les énigmes du catalogue 
des éléments chimiques et de ses spectres, sera nécessairement liée à l’ana- 
lyse continue. L'équation des ondes est probablement une acquisition qui 
restera, d’où l’on aura à tirer une synthèse plus parfaite de ces dernières 
théories que celle que nous possédons aujourd'hui. Il est manifeste que les 
schémas stochastiques auront toujours à jouer un rôle important dans le 
développement futur. Dans la théorie des probabilités, les schémas combi- 
natoires, d’un caractère purement arithmétique, et les schémas continus 
forment un alliage intime qui pourra servir de modèle. 


K.-G. HAGSTRŒM. 
(Stockholm) 
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NOTES MATHÉMATIQUES 


A. LE POINT DE VUE STOCHASTIQUE 1. — Les observations des phéno- 
mènes naturels sont toujours troublées par des erreurs d’observations. La 
plupart des quantités de la Physique ne sont données qu'avec trois ou quatre 
chiffres valables. Les quantités des sciences économiques et sociales sont encore 
plus incertaines. 

Ce que nous entendons par une constante naturelle, c’est donc en vérité 
une distribution, plus ou moins connue, autour d’un point central, qui repré- 
sente la valeur probable de la quantité observée. Les distributions typiques 
sont données par des cloches gaussiennes 


d 
T—T;0)dt = —— exp — 
A ) SV 
Nous allons exprimer le fait qu’une variable & est distribuée de cette façon 
autour d’une valeur probable x par la notation 


E— x (disp- 0). 


(Par la notation £ — x (diff.e), on peut exprimer la distribution 1/2e pour 
T—e<x<x%+e et O ailleurs, qui peut être utile dans des recherches 
théoriques.) 

Dans la théorie des probabilités, on étudie la composition d’un grand nombre 
de variables statistiques. Soient p(x)dx et q(y)dy deux distributions, caracté- 
risant les variables & et 7. On entend par la somme indépendante &Ê = E£ X 7 
une variable dont la distribution r(z)dz est donnée par 


r@) = [pG— 2 q@) dr = [pt - Dr. 


L'opération est désignée par le mot « Faltung » ou « plissage ». A chaque 
variable £ caractérisée par la distribution p(x), correspond une adjointe 
laplacienne p(x) donnée par 


+, 


+00 
p(x) = ps J ?0 ext dt. 
TT 


On a la relation inverse (intégrale de Fourier) 


+oco 


LS D —ixt 
p(x) ms Jr. dt. 


—CO. 


* L'action d’observer un phénomène et très bien représentée parle verbe grec oToxd£eo@ar 
ou viser (un but). La théorie des probabilités, l’art de conjecturer ou la « stochastique » 
(Jacques BERNoULLI, Ars Coniectandi. Basileae 1713 (op. posth.), p. 213) aura toujours 
une grande importance pour la science naturelle, 


1 PR EE ENT A AR QUE EU AUTRES RER x 
Es LE te LA NT e  ON TES FFE >» # L 
& + & Li 1 ï CRE 


+4 
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Dans le cas £ —£ x, on trouve que 


T(z) = p(2) : q(2);, 


CA 
d la composition additive des variables s’interprétant comme une mulliplication 
4 ordinaire des laplaciennes. On peut donc facilement composer un grand nombre 
1 de distributions, en passant par leurs laplaciennes et en inversant par des 
intégrales de Fourier. On peut démontrer que, dans des conditions assez 
générales, la somme d’un grand nombre de distributions quelconques tendra 
° vers une gaussienne ; ce qui justifie l'énoncé que la cloche est la distribution 
| typique !. 

| L'étude des distributions de masse très générales, présentant des discon- 
tinuités quelconques, peut se faire en utilisant l'intégrale de Stieltjes. Une 
distribution générale / sera définie comme la fonctionnelle qui fait correspondre 
L à une fonction g d’un ensemble choisi ® la valeur 


(OBECTIF OP FOTO 


cette dernière forme étant réservée aux cas où f_, est une fonction dérivable?, 
la première intégrale étant une intégrale de Stieltjes, basée sur la distribution f. 
En observant les valeurs simultanées de deux variables & et », on obtient 
dans le cas général un amas de points (x, y), et le problème fondamental est 
d’en déduire la liaison fonctionnelle, s’il y en a, entre & et 7. Or si on en tire 
les conséquences du point de vue stochastique *, on trouve que le cas typique 
consiste dans l’observation d’une fonction de corrélation de Bravais 


RD (ac 2piy +») 0 —p>0 


HA 


ou bien, en modifiant les paramètres, 


‘a V1 — r° 1 Se A LOU (2) 
dé : F(x, y) — ab EP (É 27 DÉS 
” MEANS" 

| Ona normé les variables de sorte que les moyennes arithmétiques soient — 0. 
_  Interprétons ces observations en supposant que £ et 7 soient des fonctions 
inéaires d’un paramètre 7 et posons à cet effet £ — ur (disp. 01), 7 — vt (disp. ©), 
de (disp. o), ce qui signifie que l’on a 


# î 
as +00 


3 2e 


E, 1 x RTE NC De D) DORE | 
4 © Fa y)=——-;— | dtex le 
(2 y) (2x)? oo, = ê | 2 oi 2 6 20° | 
—CÙ 
On voit par de simples réductions que l’on peut choisir d’une manière assez 


arbitraire 
ufv = À , 


1 Voir H. CRAMER, Mathematical Methods of Statisties. Uppsala 1945, p. 214. 

P. Lévy, Calcul des Probabilités. Paris; R. v. Mises. Vorlesungen.…. I Wahrschein- 
lichkeitsrechnung. Lpz. Wien 1931. È 

2 Voir Laurent ScnwanrTz, Généralisation de la notion de fonction, etc. Annales Grenoble 


XXI, 1945, p. 53. . 
s Voir Der Begriff der statistischen Funktion, Skand Akt. Tidskr. 1919, p. 1. 
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pourvu seulement que le nombre 2 satisfasse à la condition d’être inclu entre 


deux limites 
RE TIE 


données par les observations, à savoir 


Ce sont là les deux droites « de régression » de Galton. On aura alors 


LU Vi TE 
o—=ae |] ——* Ca =D + |] ————. 
; V PRE ACTE RU 
Si l’on choisit la fonction inconnue au voisinage de la limite supérieure, on 
obtient o, — à et o, — 0, si l’on choisit la limite inférieure, on aura 0, = 0 et 
63 — b. C’est le degré d’indétermination qui règne dans toute observation 
d’une fonction empirique. 


Pour obtenir les coefficients a, b,r, on calcule d’abord les moments M'x 
donnés par 


Mx= ff Fe y) ti ak dx dy, 
et on trouve 
= ME/M30Mo, ®=My(i—r), = M;(Sr). 


On a donc 
on = M/Moe , un Ge M0/ M Q 


Sans restreindre la généralité, on peut choisir o d’une manière assez arbitraire. 
En prenant une valeur quelconque À entre 4, et 4, on obtient toujours une 
représentation des observations. 


Nous avons négligé, ici, l’indétermination qui repose sur l'existence dun 
nombre illimité de «moyennes », parmi lesquelles la moyenne arithmétique . 
n’est qu’un cas particulier. Ce point de vue peut être important dans les sciences 


sociologiques t. 


B. LES PARADOXES DE ZÉNON. — On sait que Pythagore, le premier, 


voulut fonder la science naturelle sur le concept du nombre. Pour son école, 
la Nature était un ensemble de monades, en même temps étendues et indi- 


visibles. On raconte que l’existence des nombres irrationnels (« incommensu- 
rables » d’après la terminologie antique) fut gardée comme un secret dangereux, 
car elle était une menace pour le système. 

La critique sévère contre la monadologie qui avait été commencée par 
l’Eléate Parménide, fut perfectionnée par Zénon, son disciple. Les paradoxes 
que celui-ci a construits, d’après les recherches de Tannery, d'Enriques et 
de Rufini?, ne sont autre chose qu’une réduction à l’absurde des théories 
monadologiques, donc une démonstration indirecte de la continuité de la 


1 Voir Un problème du calcul stochastique. Fôrsäkringsmatematiska Studier tillägnade 
F. Lundberg. Upsala 1946, p. 104. 

? Voir Enrico RurINI, 11 « metodo » di Archimede e le origini dell’analisi infinitesimale 
nell’antichità. Roma 1926, p. 9. 
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nature, Ce n’est donc pas une antinomie dans la nature du mouvement qu’a 
voulu établir l’auteur du paradoxe d'Achille et la tortue, mais la preuve que 
les nombres entiers ou discrets ne suffisent pas à l'explication du phénomène 
du mouvement. C’est ce qui serait énoncé par le mot &v eau rô n@v, que tout 
est «unité ». 

Les antinomies de Zénon sont ainsi interprétées comme appartenant au 
problème général du continu mathématique, étudié par Hilbert et l’école 
moderne. On trouve dans un ouvrage de Hilbert et Bernays l'énoncé suivant 
sur le paradoxe de Zénon !: 


Man pflegt diese Paradoxie mit dem Argument abzuweisen, dass die Summe von 
unendlich vielen Zeitintervallen doch konvergiere, also eine endliche Zeitdauer ergeben 
kann. Dadurch wird aber ein wesentlicher Punkt der Paradoxie nicht getroffen, nämlich 
das Paradoxe, was darin liegt, dass eine unendliche Aufeinanderfolge, deren Vollendung 
wir in der Vorstellung nicht nur faktisch, sondern auch grundsätzlich nicht vollziehen 
kôünnen, in der Wirklichkeit abgeschlossen vorliegen soll. 

Tatsächlich gibt es auch eine viel radikalere Lôsung der Paradoxie. Diese besteht 
in der Erwägung, dass wir keineswegs genôtigt sind zu glauben, dass die mathematische 
raumzeitlische Darstellung der Bewegung für beliebig kleine Raum- und Zeitgrüssen noch 
physikalisch sinnvoll ist, vielmehr allen Grund haben zu der Annahme, dass jenes ma- 
thematische Modell die Tatsachen eines gewissen Erfahrungsbereiches, eben die Bewe- 
gungen, innerhalb der unserer Beobachtung bisher zugänglichen Grüssenordnungen, im 
Sinne einer einfachen Begriffsbildung extrapoliert, ähnlich wie die Mechanik der Kontinua 
eine Extrapolation vollzieht, indem sie die Vorstellung einer kontinuierlichen Erfüllung 
des Raumes mit Materie zugrunde legt : so wenig wie eine Wassermenge bei unbegrenzter 
räumlicher Teilung immer wieder Wassermengen ergibt, ebensowenig wird es bei einer 
Bewegung der Fall sein, dass durch ihre Teilung ins Unbegrenzte immer wieder etwas 
entsteht, das sich als Bewegung charakterisieren lässt. Geben wir dieses zu, so schwindet 
die Paradoxie. . 


ts POTENTIEL NEWTONIEN. — Le phénomène de la gravitation universelle 
est interprété par la théorie du potentiel newtonien, qui s’est développée en 


une discipline presque parfaite. Soit /(x,y,z) une distribution arbitraire de 


se pondérante, on définit le potentiel U (ou la «fonction de forces » dont 
dérivées selon trois axes principaux donnent les composantes de la force 
attraction, le vecteur grad U), en écrivant 

Lx 


” + © 
=u@u2= ff ffEn0déana/Ve 5 + Um +E-E 


= [Q)4Q/rre: 


l'intégrale étant étendue à tout l’espace à trois dimensions. D'une manière 
très générale, on peut supposer pour f(Q) une distribution de masse qui 
présente aussi des discontinuités simples ou compliquées. On aura, en dénotant 
comme pius haut le plissage par le signe X, 


U(P) = F x f(P), 


1 HizBert-BERNAYS, Grundlagen der Mathemalik, I, p. 16. 
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ce qui suggère l'interprétation du potentiel comme une probabilité. On voit 
que les potentiels satisfont à l’équation de Poisson 


ga M 


2 
au =( | ay? T3 


JUCP) = = 4x i(P), 


done spécialement aux points vides de matière AU — 0. Le problème de 
Dirichlet consiste dans la recherche des distributions qui satisfont à des condi- 
tions initiales et sont solutions de l’équation différentielle AU — 0. 


A. POTENTIELS GÉNÉRALISÉS. — Pour les espaces euclidiens d’un autre 
nombre de dimensions que 3, on peut définir des potentiels généralisés ! du 
cas «elliptique». D'autre part, en définissant la distance «hyperbolique » 
ou de l’espace « lorentzien » 


Tho = (t — EP + (y — n} + (x — 0) — (tr) 


et la distance correspondante dans un espace à n dimensions, on est conduit 
à étudier «l’équation des ondes » 
LRU 


cote 


AU 


MÉTRO 


On définit avec M. Riesz ? les potentiels hyperboliques en posant 
u()=2j(P)= 2 | j(Q aQ/ri 
FA m7572 PQ? 


où plutôt la fonction en laquelle se transforme le potentiel général (le nombre 
m de dimensions étant — 4) 


4 j(P) = Jorta0, 


ai 


Ha = a 2r (Er (RER), ne 


par prolongement analytique pour a— 2. Les intégrales sont ici étendues sur 


l’intérieur du cône «lumière » rétrograde ayant son sommet au point P. On 


a, dans ce cas aussi, [] U(P) — — 4x f(P). L'opérateur 1? devient l’inverse de 
are Lo À : 
l'opérateur [] = 4 — ETS Le problème de Cauchy consiste dans la recherche 


de solutions satisfaisant à certaines conditions initiales. Dans ce cas inter- 
vient le principe de Huygens, d’après lequel, dans un espace à un nombre 
impair de dimensions, les points qui se trouvent à l’extérieur de la nappe 
du cône rétrograde n’ont aucune influence sur le « futur ». 


* Voir Les potentiels à n dimensions, etc. Skand. Akt. Tidskr. 1929, p. 218. M. R1esz, 
Intégrales de Riemann-Liouville et potentiels. Acta Szeged IX: 1 (1938). 
® M. Riesz, L'intégrale de Riemann-Liouville et le problème de Cauchy, etc. Soc. Math. 


de France 1938. M. Rresz, L’intégrale de Riemann-Liouville, etc. Acta Math. 1949. (Va 
paraître.) 
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2 E. L'ÉQUATION DES ONDES. — Dans la théorie électromagnétique de 
| Maxwell, la lumière est interprétée comme des mouvements vibratoires simul- 
tanés d’un vecteur électrique e et d’un vecteur magnétique h, pour lesquels 
« 


on a une série d'équations, qui peuvent être comprimées de la manière suivante 
, en posant e +i-h — q (i —}—1) 


c. rOt q = i + 2q/ol, div q — 0. 


On constate que chaque composante U d’un tel vecteur doit satisfaire à 
l'équation des ondes [J U — 0 et on se figure généralement la quantité vibrante 
comme une solution très simple de cette équation, un point en mouvement 
harmonique ou un dipôle de Herz, etc. 

D'autre part, les solutions de l'équation des ondes sont d’une variété 
immense, et la vraie nature du mouvement ondulatoire est difficile à com- 
prendre. Soit par exemple S(a) une fonction {oute arbitraire (continue ou non) 
de la variable réelle «a, on voit que 


S(lx + my + nz— cb), 


où {, m,n sont des nombres quelconques satisfaisant à la condition 
B + nm + nr = 1, est une solution de l’équation des ondes [] S — 0. A l’ins- 
tant #, la situation définie par S au point (x, y, z), étant constante sur le plan 
lx + my + nz =, est identique. à la situation qui régnait au moment 
t — 0 au point (@— cit, y— cmt, z— cent) ou sur le plan parallèle passant 
par lui. Les valeurs de $S (a) sont donc successivement reproduites en chaque 
point de l’espace à des temps différents. On peut aussi définir une onde sphé- 


er . logiline 
rique en formant avec la fonction arbitraire S(a) l’expression mn S(r— ct), 


où re Va? Æ + 2 est la distance d’un centre d'émission. Les valeurs 
S(a) sont alors reproduites, divisées par r, donc diminuant indéfiniment 
avec la propagation de l'émission. Ni dans l’onde plane, ni dans l’onde sphé- 
rique, il n’y a de vibration qui ne soit définie par la fonction S elle-même. 
_ Or om sait que les phénomènes de la lumière, ainsi que ceux des ondes 
ectriques, ont une certaine constance, qui peut suggérer la périodicité du 
& mouvement, avec des périodes infiniment petites. Il est donc naturel d'étudier 
en. premier lieu les solutions où la fonction arbitraire est périodique, donc 
par exemple les solutions du type exp is(lx + my + nz— cf) ou bien 


. 
RE 


= exp is(r — ct) (les fonctions étant données par des exponentielles imaginaires 
r 


qui sont plus maniables que les sinus et cosinus et qui leur sont équivalentes 
si l’on en considère la partie réelle seulement par exemple). 


F. LE CONGLOMÉRAT D'ONDES PLANES. COMPLÉMENTARISME. — Une solu- 
tion périodique de l’équation des ondes, d’ailleurs assez générale, est donnée 
par l'intégrale qui, dans l’espace à une dimension, se simplifie ainsi: 


+00 
1 rer S ET tcp 
p(x, ?) — Vaxh GpipKp} exp". où g(P) =.A(P) exp —”, 


—Co 
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La théorie élémentaire de la vibration harmonique montre que l'intensité 
du mouvement s'exprime par le carré de l’amplitude A(p). Il y a lieu de 
l’identifier à une probabilité. D’autre part, en considérant l’impulsion p comme 
la somme d’un grand nombre d’impulsions élémentaires, il est naturel de se 
figurer A(p}? comme une gaussienne, définie par exemple par l’équation 
p = 0 (disp. o) ou 

p? 

2 6? 


1 
A(p}? = 50) = ——— ex 
CP} = y(P ; 6) sV2x P 
On obtient dans ce cas, en introduisant encore une constante arbitraire, 
icpt 
pb) = A(p) exp — 4» A(p}#=7(p; 6), 


donc pour la probabilité de la coordonnée x, si l’on désigne par l’astérisque * 
la fonction conjuguée obtenue en remplaçant i par — 1 


+ co 
ARR mn] [an dpa AC) A(p) exp 1 LE Feet 


et, en faisant une rotation des coordonnées de 45°, 


h & = R 
* 72 12 — nr ee en St-nai ne |. 
p(x) p*(x) (x — ct) (x et; 3) OU XL =CÉ (aisp. 


Dans ce cas simple — qui peut être généralisé de beaucoup de manières — 
on trouve donc pour les dispersions de l’impulsion p et de la coordonnée x 
les relations | | 


+co +co AP. ee 4 


1 A(p}° p? dp = ©, Î B(x — ct} (x — ct}? dx — di : 
—6o —co 
d’où l’on conclut que le produit est indépendant de © de à sé 
eo + co > sd 
Î g(p) p*(p) (p — D? dp : [ y (@) p*(x) (x — x) dx — Fe 
—co —co 


C’est là, dans ce cas schématique, la fameuse relation d’indétermination de 
Heisenberg *. Les noyaux p(p) — A(p) exp — icpt/h et y(x) — B(x — ct) sont 
les laplaciennes l’un de l’autre. En les complétant avec les facteurs intégrants 


exp ipx/h et exp —ip(x— ct), on obtient des solutions périodiques de 
l'équation des ondes. 


F Voir W. PauLr, Die allgemeinen Principien der Wellenmechanik. Handb. d. Physik, 
2° éd. 24 : 1, réimprimé Ann Arbor, Mich., U.S.A. 1946, p. 102. 
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Observons en outre que si l’on pose 


k £e) 
= 0 (diff. — 
s ( 2 


à la probabilité adjointe y(x) y*(x) s’étend sur tout l’axe des x et que l’on a 
+ co + À 

LI :2s \ h2 
[ g(p) p*(p) (p — p} dp : Î y) y*(x) @ — cf}? dx appr. = + A, 

x — CO — À 


le produit des dispersions tendant vers l'infini. Voilà une autre illustration 
de l’indéterminisme. 


Z. LA THÉORIE DES QUANTA. — Cette théorie repose sur les faits spectraux, 
d’après lesquels il y a, pour tout élément matériel, une certaine émission carac- 
téristique. Les longueurs d’onde des lignes spectrales sont classées dans des 
séries régulières, où les nombres entiers, carrés, jouent un rôle important. 

| L'émission discontinue des éléments est un fait incontestable, dont il a fallu 
trouver un schéma explicatif. C’est à Niels Bohr qu'on doit les premiers succès 
et on a successivement réussi à introduire un ordre parfait dans le catalogue 
des éléments. On a fait correspondre au nombre d'électrons groupés autour 
d’un noyau d’un élément et aux vibrations possibles de ces particules toutes les 
propriétés des spêetres visibles et invisibles de cet élément. Le succès a ainsi 
justifié des constructions qui ont pu sembler à un philosophe sceptique trop 
hardies. Il est vrai que les conclusions de cette théorie manquent souvent de 
rigueur et qu’elles semblent reposer sur des analogies fantastiques. En les 
étudiant, il faut renoncer à l’horreur des hypothèses mal fondées qu’exprimait 
Newton ou Poincaré. Mais on n’en pourrait nier le succès définitif. 

Considérons un mouvement ondulatoire du type plan 


y =) A exp — 2ni(xk, + yky + 2k; — vt) 


k,, k-) désigne le vecteur dirigeant le mouvement et » — ku représente 
ence par unité de temps (y se reproduisant lorsque f{ est augmenté de 


bi), u étant la vitesse du mouvement vibratoire et k — Vi ++ re —"1/2 


Ja densité de nœuds (par unité de longueur à un certain moment), réciproque 
de la longueur d’onde 4. La quantité y satisfait à l'équation des ondes [Ty — 0 


ou Re 
© Ÿ Ads 
Ap — 12 2 
En constatant que &y/9Ë = — 4rx»?y, on peut écrire 
4m? »? 4m 
Ay + _— éme LE Dar pi do 


Envisageons maintenant un système de coordonnées qui se meut dans la 
même direction que le mouvement vibratoire et avec la vitesse » (dont nous 
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disposerons plus tard). Prenons pour le moment la direction des mouvements 
selon l’axe des x, on aura d’après la théorie de la relativité 


MER, ya, g=s, #2) 
pr 

où B = v/c et c est la vitesse de la lumière. Si l’on a u > c, disons u = C(1 + &), 

on peut trouver un système de coordonnées (x, y’, z’, {’), où le mouvement 

ondulatoire est stationnaire. En posant uv —c?, v’=— c/1’ ku/1 —_B2= kce2, 

on obtient 


y = À exp 2rivl. 


Si l’on prend par exemple e — 1 %, c’est-à-dire que la vitesse des ondes 
excède celle de la lumière de 1 %, le système où le mouvement ondulatoire 
est stationnaire a la vitesse v = c(1— &), 1 % au-dessous de celle de la 
lumière, et la fréquence y est 14,14 % (= «}2) de la fréquence originale, 
la longueur d’onde 7,07 fois celle qu’on observait dans le système en repos. 
L’analogie ainsi établie entre un mouvement corpusculaire de vitessé v et 
une onde de vitesse u — c?/v a été la base des «ondes matérielles » de de Broglie. 
En considérant un « paquet » d’ondes, dont les fréquences » (ou bien les impul- 
sions p proportionnelles aux k) remplissent un intervalle, on est amené à 
étudier la vitesse du maximum, et on la trouve égale à la vitesse v du cor- 
puscule. 
Le corpuscule matériel qui se meut avec la vitesse v a l'énergie 


E=me = mc} — ne 
EE STD = Bot me (PE + P3 + à), 


où Æ, est l’énergie, m, la masse au repos. D'autre part, c’est un ee d’'obser- 
on que l’énergie est proportionnelle à la fréquence 


2 
RME LT RNCS 


h 
v À ù 


à 


is 


où À est une constante universelle. En identifiant l'énergie du corpuscule et Le 


celle de l’onde qui le représente, on obtient 2 — h/mv et la correspondance. 
Px = kz, Py = Rky, P: = hk;, E =hy. 


En faisant tendre & vers 0, on se rapproche d’un corpuscule- -limite qui se 
nomme photon et qui fournit une image alternative de l’émission de la lumière. 
Pour le corpuscule on a 


1 
De +p;+Ppi—=E=-epe 
: e 


et pour le photon cette relation se réduit à 


1 
P, EPP Et US 


ne db El PET 6 TE EEE 
CAT aAROE N 4 À ; 


x: ST Lu ’ 
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ce qui correspond à l'équation du cône-lumière 
+ +z2- Cf —0, 


Le schéma corpusculaire de la lumière fut une fois abandonné comme 
inadéquat, surtout à cause du phénomène d’interférence. On l’a réadopté 
pour d’autres raisons et l’on a cru que la solution de l’énigme consisterait 
dans l’acceptation de deux explications parallèles, contradictoires entre elles, 
du point de vue logique, mais chacune contenant une partie de la vérité. 
F Evidemment cette situation ne peut être que transitoire; de la même 
manière que, dans deux lois incompatibles d’un code civil, il faut rejeter l’un 
; quelconque de deux paragraphes contradictoires, sans qu’il soit pour cela 
nécessaire d'annuler les lois entières. 

À 


H. LES NOMBRES ET FONCTIONS CARACTÉRISTIQUES. LES MATRICES. — 
L’équation des ondes devient, en observant que »?/u? — m?w?/h? et que la difré- 
rence de l’énergie totale Æ et de l’énergie potentielle V (fonction du lieu) est 
approximativement mu?/2, 


2 
déres SE den V)y = 0. 


4 

2 

J 

& ; « 4 

: On sait que les équations de ce type admettent des solutions régulières seu- 

A lement pour des coeflicients! caractéristiques. IL y a là une espèce de discon- 

; tinuité naturelle dans l'univers continu des équations différentielles, qui peut 

6 être le point de départ d’une théorie des quanta. Heïisenberg, qui a voulu 

F donner à la théorie des fondements plus évidents, a cependant proposé de 
considérer l'atome comme le système d’un nombre illimité de vibrations pos- 

: sibles -une ae infinie de coordonnées, à laquelle est attachée une matrice 

, i Pc infinie. Cet orchestre virtuel contiendrait toutes les 

| vibrations atomiques. 

4 dinger et d’autres ont réinterprété cette mécanique des matrices 

% la théorie des caractéristiques en considérant les éléments des 

J nme des intégrales sur des fonctions caractéristiques ?. On a aussi 


6 la théorie des matrices &es essais plus récents de Dirac. On ne 
guère prétendre que la synthèse de toutes ces théories soit déjà établie. 
# calcul des matrices — connu dans les mathématiques pures depuis 
4 emps — offre la particularité que la multiplication n’est plus commutative. 
* On a donc, si p et q sont des matrices en général pq — gp +0. Dans le cas 
; qui intéresse la théorie des quanta, on pose pour cette différence 
F 


Ë 
a 
°4 
F 


pq —-q LE - 1, où 1 désigne la matrice unité ou diagonale. En définissant 
i 


la différentiation avec les différentielles qui sont aussi des matrices diagonales, 
on obtient pour une fonction assez générale 


kW h 3W 
| Doom LES, dit pes 
p 179 i 9p P P i °q 


1Voir MADELUNG, Die mathematischen Hilfsmittel des Physikers. Dover Publications 


à 1943, pp. 200, 294, 356. 
4 2 Voir A. Haas, Materiewellen und Quantenmechanik. Leipzig 1929, p. 94. 
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et en cherchant la solution des équations canoniques de la mécanique 
da/dt—3H}9p, dp/dt==#6Hjeq, 


où 1 est la fonction hamiltonienne qui exprime l’énergie, on obtient 
R R 
HQ— 4H == dqjdt, “pH= Hp SOI 6 
ui 


La fonction 7, qui est aussi une matrice, a la propriété d’être diagonale, 
ce qui est considéré comme l’expression de la conservation de l’énergie. Les 
termes de la diagonale de H sont les termes spectraux. Par ce symbolisme, 
qui peut sembler un peu mystérieux, l’unité de la mécanique des points maté- 
riels et de la théorie des émanations vibratoires doit être rétablie. Dans la 


relation fondamentale d'échange pq — qp ae - 1, on voit l’analogue de la 
Î 
relation d’indéterminisme de Heisenberg. 


O. L'EXACTITUDE DES OBSERVATIONS. — C’est la lumière qui nous a donné 
les sensations les plus exactes de la nature. Les phénomènes ondulatoires 
nous ont fourni la technique moderne. Ce qui semble très étonnant, c’est 
l'exactitude avec laquelle on a pu mesurer les ondes. Les longueurs d’onde 
des lignes spectrales sont connues avec un grand nombre de chiffres. En admet- 
tant que certaines d’elles aient un caractère relatif seulement, il en reste néan- 
moins une exactitude admirable. Il est bien connu que c'est le phénomène 
d’interférence des ondes qui est à la base des mesures. On p étudier par 
exemple l’expérience de Young dans ÆEncyclopoedia ‘Bi Ti 
« Light » 1, On fait passer deux rayons de lumière monochr : 
fentes À et B de distance 24 (par exemple — 1 mm.). Les im: ges mbent 
sur un écran de distance D (— 1000 mm.). On aperçoit une série de b jdes 
luisantes ONOROE » alternant avec des bandes noires 2, 2 4 ’in 


pond à des différences de distances de A et de B d’une entière long 
Entre les points O et Q (0Q = 2e = 1,2 à 1,4 mm., lumière jau 
on peut suivre une onde entière de la lumière et en déterminer la p 
une grande approximation. Mieux encore, on peut travailler avec l’ 
mètre de Fabry et Pérot (1. c., p. 64). Ce sont là les observations les plus exactes 
qui sont connues. 

Lorsque, dans la théorie des quanta, on parle d’une borne qui nous défend 
de mesurer avec un degré indéfini, c’est la mesure simultanée d’une coordonnée 
et d’une impulsion qu’on veut nier. 


CALE 


1 Vol. 14, p. 61. Signed C. G. D(arwin). 


